論文の概要: The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models
- arxiv url: http://arxiv.org/abs/2406.11096v1
- Date: Sun, 16 Jun 2024 22:59:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:03:42.123096
- Title: The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models
- Title(参考訳): 大規模言語モデルにおける態度・意見・価値の評価の可能性と課題
- Authors: Bolei Ma, Xinpeng Wang, Tiancheng Hu, Anna-Carolina Haensch, Michael A. Hedderich, Barbara Plank, Frauke Kreuter,
- Abstract要約: 本稿では,大規模言語モデル(LLM)における態度,意見,価値(AOV)の評価に関する最近の研究の概要について述べる。
これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
- 参考スコア(独自算出の注目度): 28.743404185915697
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) have sparked wide interest in validating and comprehending the human-like cognitive-behavioral traits LLMs may have. These cognitive-behavioral traits include typically Attitudes, Opinions, Values (AOV). However, measuring AOV embedded within LLMs remains opaque, and different evaluation methods may yield different results. This has led to a lack of clarity on how different studies are related to each other and how they can be interpreted. This paper aims to bridge this gap by providing an overview of recent works on the evaluation of AOV in LLMs. Moreover, we survey related approaches in different stages of the evaluation pipeline in these works. By doing so, we address the potential and challenges with respect to understanding the model, human-AI alignment, and downstream application in social sciences. Finally, we provide practical insights into evaluation methods, model enhancement, and interdisciplinary collaboration, thereby contributing to the evolving landscape of evaluating AOV in LLMs.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は、LLMが持つかもしれない人間のような認知行動特性の検証と理解に幅広い関心を喚起している。
これらの認知行動特性には、通常、態度、意見、価値(AOV)が含まれる。
しかし、LLM内に埋め込まれたAOVの測定は不透明であり、異なる評価方法が異なる結果をもたらす可能性がある。
この結果、異なる研究が相互にどのように関連しているか、どのように解釈できるかが明確になっていない。
本稿では,LLMにおけるAOV評価に関する最近の研究の概要を提供することで,このギャップを埋めることを目的としている。
さらに,これらの研究における評価パイプラインの異なる段階における関連するアプローチを調査した。
これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
最後に, 評価手法, モデル強化, 学際的コラボレーションの実践的洞察を提供し, LLMにおけるAOV評価の進化に寄与する。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges [14.739357670600102]
本稿では,Large Language Models(LLM)と認知科学の交わりについて概観する。
我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。
我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T02:30:12Z) - From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。
以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。
LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文 参考訳(メタデータ) (2024-08-09T20:35:10Z) - LLMs instead of Human Judges? A Large Scale Empirical Study across 20 NLP Evaluation Tasks [106.09361690937618]
人間の判断の代わりにLPMを用いてNLPモデルを評価する傾向が高まっている。
JUDGE-BENCHは20個のNLPデータセットのコレクションで、人間のアノテーションで、幅広い評価された特性やデータの種類をカバーしています。
アノテーションを複製できるため、オープンウェイトモデルとプロプライエタリモデルの両方をカバーする11の現在のLCMを評価します。
論文 参考訳(メタデータ) (2024-06-26T14:56:13Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。
参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文 参考訳(メタデータ) (2024-01-26T13:55:32Z) - Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [47.632123167141245]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。
我々は,現実の文脈と人間の要求に基づく評価手法の開発をコミュニティに促す。
論文 参考訳(メタデータ) (2023-06-01T00:01:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。