論文の概要: Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting
- arxiv url: http://arxiv.org/abs/2305.04388v2
- Date: Sat, 9 Dec 2023 21:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:40:41.113285
- Title: Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting
- Title(参考訳): 言語モデルは、いつも何を考えているのかを言わない: チェーン・オブ・サート・プロンプティングにおける不誠実な説明
- Authors: Miles Turpin, Julian Michael, Ethan Perez, Samuel R. Bowman
- Abstract要約: 大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
- 参考スコア(独自算出の注目度): 43.458726163197824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) can achieve strong performance on many tasks by
producing step-by-step reasoning before giving a final output, often referred
to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT
explanations as the LLM's process for solving a task. This level of
transparency into LLMs' predictions would yield significant safety benefits.
However, we find that CoT explanations can systematically misrepresent the true
reason for a model's prediction. We demonstrate that CoT explanations can be
heavily influenced by adding biasing features to model inputs--e.g., by
reordering the multiple-choice options in a few-shot prompt to make the answer
always "(A)"--which models systematically fail to mention in their
explanations. When we bias models toward incorrect answers, they frequently
generate CoT explanations rationalizing those answers. This causes accuracy to
drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing
with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task,
model explanations justify giving answers in line with stereotypes without
mentioning the influence of these social biases. Our findings indicate that CoT
explanations can be plausible yet misleading, which risks increasing our trust
in LLMs without guaranteeing their safety. Building more transparent and
explainable systems will require either improving CoT faithfulness through
targeted efforts or abandoning CoT in favor of alternative methods.
- Abstract(参考訳): 大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
これらの CoT の説明を LLM のタスク解決プロセスとして解釈する傾向があります。
LLMの予測に対するこのレベルの透明性は、大きな安全性の恩恵をもたらすだろう。
しかし、CoTの説明はモデルが予測する真の理由を体系的に誤って表すことができる。
モデル入力にバイアス機能を加えることで、CoTの説明に大きく影響することを示す。例えば、複数選択オプションを数ショットのプロンプトで並べ替えて、その答えを常に"(A)"にする。
モデルが不正確な答えに偏ると、彼らはしばしばその答えを合理化するcot説明を生成します。
これにより、OpenAIの GPT-3.5 と Anthropic の Claude 1.0 でテストすると、BIG-Bench Hard の 13 タスクスイートで最大 36% の精度が低下する。
社会的バイアスのタスクでは、モデル説明は、これらの社会的バイアスの影響を言及せずに、ステレオタイプに則った回答を正当化する。
以上の結果から,cotの説明は誤解を招く可能性があり,安全性を保証せずにllmへの信頼が高まるリスクがあることが示唆された。
より透明で説明可能なシステムを構築するには、目標とする取り組みを通じてCoTの忠実性を改善するか、代替手法に賛成してCoTを捨てるかが必要になる。
関連論文リスト
- Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning [11.758019716526459]
Chain-of-Thought(CoT)プロンプトは、Large Language Models(LLM)の多段階推論能力を高めることが示されている。
CoTのプロンプト性能は,真の推論の暗黙化と確率バージョンの両方を反映していることを示す。
論文 参考訳(メタデータ) (2024-07-01T18:01:07Z) - Chain-of-Probe: Examing the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning [23.34325378824462]
大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
論文 参考訳(メタデータ) (2023-07-17T00:54:10Z) - SCOTT: Self-Consistent Chain-of-Thought Distillation [68.40232422158569]
大規模言語モデル(LM)は、チェーン・オブ・シークレット・プロンプトを通じて予測のための自由テキスト論理を生成する。
そこで本研究では,教師モデルから,小規模で自己整合的なCoTモデルを学習するための忠実な知識蒸留法を提案する。
忠実蒸留を確実にするために,教師生成の合理性を用いて,反実的推論目的の学生LMを学習する。
論文 参考訳(メタデータ) (2023-05-03T03:47:00Z) - Large Language Models are Better Reasoners with Self-Verification [48.534270563880845]
大規模言語モデル(LLM)は、いくつかの自然言語処理タスクにおいて強力な推論能力を示している。
思考の連鎖(CoT)を促進させるLLMは、個別のミスに非常に敏感な、多段階のプロンプトと多段階の予測を必要とする。
また,LLMにも同様な自己検証能力があることを示す。
論文 参考訳(メタデータ) (2022-12-19T15:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。