論文の概要: Evaluating Human Alignment and Model Faithfulness of LLM Rationale
- arxiv url: http://arxiv.org/abs/2407.00219v2
- Date: Tue, 22 Oct 2024 05:13:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-23 14:26:24.491685
- Title: Evaluating Human Alignment and Model Faithfulness of LLM Rationale
- Title(参考訳): LLMのアライメント評価とモデル忠実度
- Authors: Mohsen Fayyaz, Fan Yin, Jiao Sun, Nanyun Peng,
- Abstract要約: 大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
- 参考スコア(独自算出の注目度): 66.75309523854476
- License:
- Abstract: We study how well large language models (LLMs) explain their generations through rationales -- a set of tokens extracted from the input text that reflect the decision-making process of LLMs. Specifically, we systematically study rationales derived using two approaches: (1) popular prompting-based methods, where prompts are used to guide LLMs in generating rationales, and (2) technical attribution-based methods, which leverage attention or gradients to identify important tokens. Our analysis spans three classification datasets with annotated rationales, encompassing tasks with varying performance levels. While prompting-based self-explanations are widely used, our study reveals that these explanations are not always as "aligned" with the human rationale as attribution-based explanations. Even more so, fine-tuning LLMs to enhance classification task accuracy does not enhance the alignment of prompting-based rationales. Still, it does considerably improve the alignment of attribution-based methods (e.g., InputXGradient). More importantly, we show that prompting-based self-explanation is also less "faithful" than attribution-based explanations, failing to provide a reliable account of the model's decision-making process. To evaluate faithfulness, unlike prior studies that excluded misclassified examples, we evaluate all instances and also examine the impact of fine-tuning and accuracy on alignment and faithfulness. Our findings suggest that inconclusive faithfulness results reported in earlier studies may stem from low classification accuracy. These findings underscore the importance of more rigorous and comprehensive evaluations of LLM rationales.
- Abstract(参考訳): 我々は,LLMの意思決定過程を反映した入力テキストから抽出したトークンの集合である,大言語モデル(LLM)が,それらの世代を有理性を通していかにうまく説明するかを考察する。
具体的には,(1)有理数生成において LLM を誘導するためにプロンプトが使用される一般的なプロンプトベースの手法と,(2) 重要なトークンを識別するために注意や勾配を利用する技術的帰属的手法の2つの手法を体系的に研究する。
我々の分析は、3つの分類データセットに注釈付き合理性を持ち、様々なパフォーマンスレベルのタスクを包含する。
プロンプトに基づく自己説明は広く用いられているが、本研究ではこれらの説明が、帰属に基づく説明のように、必ずしも人間の理性と「一致」しているわけではないことを明らかにしている。
さらに、分類タスクの精度を高めるための微調整LDMは、プロンプトベースの有理量のアライメントを向上しない。
それでも、属性ベースのメソッド(InputXGradientなど)のアライメントを大幅に改善しています。
さらに重要なことは、帰属に基づく説明よりもプロンプトベースの自己説明が「忠実」でないことを示し、モデルの意思決定プロセスの信頼できる説明を提供していないことである。
非分類例を除外した先行研究とは異なり、忠実度を評価するために、すべての事例を評価し、微調整と精度が整合性と忠実性に与える影響を検討する。
以上の結果から, 既往の研究で報告された不確定忠実度は, 分類精度が低いことに起因する可能性が示唆された。
これらの知見は, LLM論理学の厳密かつ包括的評価の重要性を浮き彫りにした。
関連論文リスト
- LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は、システムの異なる部分への介入の下で因果効果を推定することができる。
LLMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを実証分析して評価する。
我々は、様々な因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成し、介入に基づく推論の研究を可能にする。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Comparing Inferential Strategies of Humans and Large Language Models in Deductive Reasoning [25.732397636695882]
大規模言語モデル(LLM)では,人間の観察と類似した推論パターンが示される。
我々の研究は、モデルの構造と規模が、その好む推論方法に大きく影響していることを示します。
論文 参考訳(メタデータ) (2024-02-20T12:58:14Z) - LLMs for Relational Reasoning: How Far are We? [8.840750655261251]
大規模言語モデル(LLM)は、下流タスクで最先端のパフォーマンスを達成することで、多くの領域に革命をもたらした。
近年の取り組みにより,LSMは逐次決定問題の解決に乏しいことが示されている。
論文 参考訳(メタデータ) (2024-01-17T08:22:52Z) - LogicAsker: Evaluating and Improving the Logical Reasoning Ability of Large Language Models [63.14196038655506]
大規模言語モデル(LLM)の論理的推論能力を評価・拡張するための新しいアプローチであるLogicAskerを紹介する。
提案手法は, LLMが論理規則を学習する際の大きなギャップを明らかにし, 異なるモデル間で29%から90%の推論失敗を識別する。
GPT-4oのようなモデルにおける論理的推論を最大5%向上させることで、これらの知見を活用して、ターゲットとなる実演例と微調整データを構築した。
論文 参考訳(メタデータ) (2024-01-01T13:53:53Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。