論文の概要: Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting
- arxiv url: http://arxiv.org/abs/2305.04388v2
- Date: Sat, 9 Dec 2023 21:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:40:41.113285
- Title: Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting
- Title(参考訳): 言語モデルは、いつも何を考えているのかを言わない: チェーン・オブ・サート・プロンプティングにおける不誠実な説明
- Authors: Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman
- Abstract要約: 大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
- 参考スコア(独自算出の注目度): 43.458726163197824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can achieve strong performance on many tasks by
producing step-by-step reasoning before giving a final output, often referred
to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT
explanations as the LLM's process for solving a task. This level of
transparency into LLMs' predictions would yield significant safety benefits.
However, we find that CoT explanations can systematically misrepresent the true
reason for a model's prediction. We demonstrate that CoT explanations can be
heavily influenced by adding biasing features to model inputs--e.g., by
reordering the multiple-choice options in a few-shot prompt to make the answer
always "(A)"--which models systematically fail to mention in their
explanations. When we bias models toward incorrect answers, they frequently
generate CoT explanations rationalizing those answers. This causes accuracy to
drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing
with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task,
model explanations justify giving answers in line with stereotypes without
mentioning the influence of these social biases. Our findings indicate that CoT
explanations can be plausible yet misleading, which risks increasing our trust
in LLMs without guaranteeing their safety. Building more transparent and
explainable systems will require either improving CoT faithfulness through
targeted efforts or abandoning CoT in favor of alternative methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
これらの CoT の説明を LLM のタスク解決プロセスとして解釈する傾向があります。
LLMの予測に対するこのレベルの透明性は、大きな安全性の恩恵をもたらすだろう。
しかし、CoTの説明はモデルが予測する真の理由を体系的に誤って表すことができる。
モデル入力にバイアス機能を加えることで、CoTの説明に大きく影響することを示す。例えば、複数選択オプションを数ショットのプロンプトで並べ替えて、その答えを常に"(A)"にする。
モデルが不正確な答えに偏ると、彼らはしばしばその答えを合理化するcot説明を生成します。
これにより、OpenAIの GPT-3.5 と Anthropic の Claude 1.0 でテストすると、BIG-Bench Hard の 13 タスクスイートで最大 36% の精度が低下する。
社会的バイアスのタスクでは、モデル説明は、これらの社会的バイアスの影響を言及せずに、ステレオタイプに則った回答を正当化する。
以上の結果から,cotの説明は誤解を招く可能性があり,安全性を保証せずにllmへの信頼が高まるリスクがあることが示唆された。
より透明で説明可能なシステムを構築するには、目標とする取り組みを通じてCoTの忠実性を改善するか、代替手法に賛成してCoTを捨てるかが必要になる。
関連論文リスト
- Inference to the Best Explanation in Large Language Models [6.037970847418495]
Inference to the Best Explanation (IBE) に関する哲学的な記述から着想を得た IBE-Eval を提案する。
IBE-Evalは、明示的な論理的特徴と言語的特徴を組み合わせることで、自然言語の説明の妥当性を推定する。
実験の結果、IBE-Evalは77%の精度で最良の説明を特定できることがわかった。
論文 参考訳(メタデータ) (2024-02-16T15:41:23Z) - A Hypothesis-Driven Framework for the Analysis of Self-Rationalising
Models [0.8702432681310401]
我々はベイジアンネットワークを用いて、タスクの解決方法に関する仮説を実装している。
結果のモデルはGPT-3.5と強い類似性は示さない。
今後の作業において、LCM決定をよりよく近似するフレームワークの可能性だけでなく、これの意味についても論じる。
論文 参考訳(メタデータ) (2024-02-07T12:26:12Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Explanation Selection Using Unlabeled Data for Chain-of-Thought
Prompting [80.9896041501715]
非専門家によって書かれたオフ・ザ・シェルフの説明のように、タスクのために"チューニング"されていない説明は、中途半端なパフォーマンスをもたらす可能性がある。
本稿では,ブラックボックス方式で説明拡散プロンプトを最適化する方法の課題に対処する。
論文 参考訳(メタデータ) (2023-02-09T18:02:34Z) - Multimodal Chain-of-Thought Reasoning in Language Models [80.902171201496]
大規模言語モデル(LLM)は、チェーン・オブ・ソート(CoT)を利用して複雑な推論において印象的な性能を示した。
本稿では,視覚機能を分離したトレーニングフレームワークに組み込んだマルチモーダルCoTを提案する。
Multimodal-CoTでは、ScienceQAベンチマークで10億のパラメータ未満のモデルで、従来の最先端のLCM(GPT-3.5)を16%(75.17%->91.68%)上回るパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-02-02T07:51:19Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。