論文の概要: The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11096v3
- Date: Thu, 03 Oct 2024 11:57:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-04 23:30:31.117286
- Title: The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models
- Title(参考訳): 大規模言語モデルにおける態度・意見・価値の評価の可能性と課題
- Authors: Bolei Ma, Xinpeng Wang, Tiancheng Hu, Anna-Carolina Haensch, Michael A. Hedderich, Barbara Plank, Frauke Kreuter,
- Abstract要約: 本稿では,Large Language Models (LLMs) における態度, 意見, 価値 (AOVs) の評価に関する最近の研究の概要について概説する。
これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
- 参考スコア(独自算出の注目度): 28.743404185915697
- License:
- Abstract: Recent advances in Large Language Models (LLMs) have sparked wide interest in validating and comprehending the human-like cognitive-behavioral traits LLMs may capture and convey. These cognitive-behavioral traits include typically Attitudes, Opinions, Values (AOVs). However, measuring AOVs embedded within LLMs remains opaque, and different evaluation methods may yield different results. This has led to a lack of clarity on how different studies are related to each other and how they can be interpreted. This paper aims to bridge this gap by providing a comprehensive overview of recent works on the evaluation of AOVs in LLMs. Moreover, we survey related approaches in different stages of the evaluation pipeline in these works. By doing so, we address the potential and challenges with respect to understanding the model, human-AI alignment, and downstream application in social sciences. Finally, we provide practical insights into evaluation methods, model enhancement, and interdisciplinary collaboration, thereby contributing to the evolving landscape of evaluating AOVs in LLMs.
- Abstract(参考訳): 近年のLLM(Large Language Models)の進歩は、LLMが捉え、伝達することのできる人間のような認知行動特性の検証と理解に、幅広い関心を喚起している。
これらの認知行動特性には、通常、態度、意見、価値(AOV)が含まれる。
しかし、LSM内に埋め込まれたAOVの測定は不透明であり、異なる評価方法が異なる結果をもたらす可能性がある。
この結果、異なる研究が相互にどのように関連しているか、どのように解釈できるかが明確になっていない。
本稿では,LLMにおけるAOVの評価に関する最近の研究の概要を網羅して,このギャップを埋めることを目的としている。
さらに,これらの研究における評価パイプラインの異なる段階における関連するアプローチを調査した。
これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
最後に, 評価手法, モデル強化, 学際的コラボレーションの実践的洞察を提供し, LSMにおけるAOVの評価の進化に寄与する。
関連論文リスト
- Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - The Generative AI Paradox on Evaluation: What It Can Solve, It May Not
Evaluate [17.77014177096838]
本稿では,ジェネレーションタスクにおけるLarge Language Models (LLMs) が同等に評価できるという仮定を考察する。
質問応答(QA)における3つのLLMと1つのオープンソースLMの性能評価と,TriviaQAデータセットを用いた評価課題について述べる。
論文 参考訳(メタデータ) (2024-02-09T06:16:08Z) - F-Eval: Asssessing Fundamental Abilities with Refined Evaluation Methods [111.46455901113976]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Evaluating Large Language Models at Evaluating Instruction Following [54.49567482594617]
我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。
異なる評価器がLLMBarに対して異なる性能を示し、最高の評価器でさえ改善の余地があることが判明した。
論文 参考訳(メタデータ) (2023-10-11T16:38:11Z) - Survey of Social Bias in Vision-Language Models [65.44579542312489]
調査の目的は、NLP、CV、VLをまたいだ事前学習モデルにおける社会バイアス研究の類似点と相違点について、研究者に高いレベルの洞察を提供することである。
ここで提示された発見とレコメンデーションはMLコミュニティの利益となり、公平でバイアスのないAIモデルの開発を促進する。
論文 参考訳(メタデータ) (2023-09-24T15:34:56Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [34.08410116336628]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。
我々は,現実世界の社会要求に基づく評価手法の開発をコミュニティに促す。
論文 参考訳(メタデータ) (2023-06-01T00:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。