Fugu-MT 論文翻訳(概要): The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models

論文の概要: The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models

arxiv url: http://arxiv.org/abs/2406.11096v3
Date: Thu, 03 Oct 2024 11:57:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 12:51:09.595653
Title: The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models
Title（参考訳）: 大規模言語モデルにおける態度・意見・価値の評価の可能性と課題
Authors: Bolei Ma, Xinpeng Wang, Tiancheng Hu, Anna-Carolina Haensch, Michael A. Hedderich, Barbara Plank, Frauke Kreuter,
Abstract要約: 本稿では,Large Language Models (LLMs) における態度, 意見, 価値 (AOVs) の評価に関する最近の研究の概要について概説する。これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
参考スコア（独自算出の注目度）: 28.743404185915697
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in Large Language Models (LLMs) have sparked wide interest in validating and comprehending the human-like cognitive-behavioral traits LLMs may capture and convey. These cognitive-behavioral traits include typically Attitudes, Opinions, Values (AOVs). However, measuring AOVs embedded within LLMs remains opaque, and different evaluation methods may yield different results. This has led to a lack of clarity on how different studies are related to each other and how they can be interpreted. This paper aims to bridge this gap by providing a comprehensive overview of recent works on the evaluation of AOVs in LLMs. Moreover, we survey related approaches in different stages of the evaluation pipeline in these works. By doing so, we address the potential and challenges with respect to understanding the model, human-AI alignment, and downstream application in social sciences. Finally, we provide practical insights into evaluation methods, model enhancement, and interdisciplinary collaboration, thereby contributing to the evolving landscape of evaluating AOVs in LLMs.
Abstract（参考訳）: 近年のLLM(Large Language Models)の進歩は、LLMが捉え、伝達することのできる人間のような認知行動特性の検証と理解に、幅広い関心を喚起している。これらの認知行動特性には、通常、態度、意見、価値(AOV)が含まれる。しかし、LSM内に埋め込まれたAOVの測定は不透明であり、異なる評価方法が異なる結果をもたらす可能性がある。この結果、異なる研究が相互にどのように関連しているか、どのように解釈できるかが明確になっていない。本稿では,LLMにおけるAOVの評価に関する最近の研究の概要を網羅して,このギャップを埋めることを目的としている。さらに,これらの研究における評価パイプラインの異なる段階における関連するアプローチを調査した。これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。最後に, 評価手法, モデル強化, 学際的コラボレーションの実践的洞察を提供し, LSMにおけるAOVの評価の進化に寄与する。

関連論文リスト

Revisiting LLM Evaluation through Mechanism Interpretability: a New Metric and Model Utility Law [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。本稿では,従来の性能指標を補完する機構解釈可能性技術を導入し,モデル利用指標(MUI)を提案する。
論文参考訳（メタデータ） (2025-04-10T04:09:47Z)
LLM-based Automated Grading with Human-in-the-Loop [32.14015215819979]
大規模言語モデル (LLM) は、自動短応答グレーディング (ASAG) にますます使われている。本研究では,Human-in-the-loop (HITL) アプローチを用いて,ASAGタスクにおけるLLMの可能性を探究する。提案するフレームワークである GradeHITL は LLM の生成特性を利用して人間の専門家に質問を投げかける。
論文参考訳（メタデータ） (2025-04-07T16:23:07Z)
MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文参考訳（メタデータ） (2024-11-22T18:59:54Z)
Large Language Models and Cognitive Science: A Comprehensive Review of Similarities, Differences, and Challenges [12.390859712280324]
本稿では,Large Language Models(LLM)と認知科学の交わりについて概観する。我々は,LLMの認知能力を評価する手法を分析し,認知モデルとしての可能性について議論する。我々はLLMの認知バイアスと限界を評価し,その性能向上手法を提案する。
論文参考訳（メタデータ） (2024-09-04T02:30:12Z)
From Text to Insight: Leveraging Large Language Models for Performance Evaluation in Management [6.70908766695241]
本研究では,大規模言語モデル(LLM),特にGPT-4の可能性を探り,組織的タスクパフォーマンス評価における客観性を高める。以上の結果から,GPT評価は人間の評価に匹敵するが,一貫性と信頼性が高いことが示唆された。 LLMはテキストベースのデータから意味のある構成物を抽出できるが、その範囲は特定のパフォーマンス評価形式に限定されている。
論文参考訳（メタデータ） (2024-08-09T20:35:10Z)
Decompose and Aggregate: A Step-by-Step Interpretable Evaluation Framework [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文参考訳（メタデータ） (2024-05-24T08:12:30Z)
Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文参考訳（メタデータ） (2024-03-22T14:47:35Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。本調査では,これらのアライメント技術の概要について概観する。
論文参考訳（メタデータ） (2023-07-24T17:44:58Z)
A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文参考訳（メタデータ） (2023-07-06T16:28:35Z)
Rethinking Model Evaluation as Narrowing the Socio-Technical Gap [34.08410116336628]
モデル評価の実践は、この均質化によってもたらされる課題や責任に対処するために、重要なタスクを負わなければならない、と我々は主張する。我々は,現実世界の社会要求に基づく評価手法の開発をコミュニティに促す。
論文参考訳（メタデータ） (2023-06-01T00:01:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。