論文の概要: Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning
- arxiv url: http://arxiv.org/abs/2307.11768v2
- Date: Tue, 25 Jul 2023 04:01:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-26 19:52:15.398345
- Title: Question Decomposition Improves the Faithfulness of Model-Generated
Reasoning
- Title(参考訳): 質問分解によるモデル生成推論の忠実度向上
- Authors: Ansh Radhakrishnan, Karina Nguyen, Anna Chen, Carol Chen, Carson
Denison, Danny Hernandez, Esin Durmus, Evan Hubinger, Jackson Kernion,
Kamil\.e Luko\v{s}i\=ut\.e, Newton Cheng, Nicholas Joseph, Nicholas Schiefer,
Oliver Rausch, Sam McCandlish, Sheer El Showk, Tamera Lanham, Tim Maxwell,
Venkatesa Chandrasekaran, Zac Hatfield-Dodds, Jared Kaplan, Jan Brauner,
Samuel R. Bowman, Ethan Perez
- Abstract要約: 大規模言語モデル(LLM)は、その振る舞いの正しさと安全性を検証するのが困難である。
一つのアプローチは、LLMが質問に答えるときにステップバイステップの推論を生成することによって、彼らの推論を外部化するように促すことである。
このアプローチは、モデルの実的推論を忠実に反映する記述された推論に依存しており、必ずしもそうではない。
分解に基づく手法は、時にはCoTの手法に近づき、質問応答タスクにおいて高い性能を達成する。
- 参考スコア(独自算出の注目度): 23.34325378824462
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As large language models (LLMs) perform more difficult tasks, it becomes
harder to verify the correctness and safety of their behavior. One approach to
help with this issue is to prompt LLMs to externalize their reasoning, e.g., by
having them generate step-by-step reasoning as they answer a question
(Chain-of-Thought; CoT). The reasoning may enable us to check the process that
models use to perform tasks. However, this approach relies on the stated
reasoning faithfully reflecting the model's actual reasoning, which is not
always the case. To improve over the faithfulness of CoT reasoning, we have
models generate reasoning by decomposing questions into subquestions.
Decomposition-based methods achieve strong performance on question-answering
tasks, sometimes approaching that of CoT while improving the faithfulness of
the model's stated reasoning on several recently-proposed metrics. By forcing
the model to answer simpler subquestions in separate contexts, we greatly
increase the faithfulness of model-generated reasoning over CoT, while still
achieving some of the performance gains of CoT. Our results show it is possible
to improve the faithfulness of model-generated reasoning; continued
improvements may lead to reasoning that enables us to verify the correctness
and safety of LLM behavior.
- Abstract(参考訳): 大規模言語モデル(llm)はより難しいタスクを実行するため、その動作の正確性と安全性を検証することが難しくなる。
この問題を解決するための1つのアプローチは、質問に答えるときにステップバイステップの推論(chain-of-thought; cot)を生成させることで、llmに推論の外部化を促すことである。
この推論により、モデルがタスクを実行するのに使用するプロセスをチェックすることができます。
しかし、このアプローチはモデルの実際の推論を忠実に反映する推論に依存しており、必ずしもそうではない。
CoT推論の忠実性を改善するために、質問をサブクエストに分解することで推論を生成するモデルがある。
分解に基づく手法は、最近提案されたいくつかのメトリクスに対するモデルが主張する根拠の忠実さを改善しながら、時にはCoTの課題にアプローチする。
モデルに別の文脈での単純な要求への答えを強制することで、CoTに対するモデル生成推論の忠実度を大幅に向上させ、CoTのパフォーマンス向上を達成します。
この結果から, モデル生成推論の忠実度を向上させることが可能であり, 継続的な改善により, LLMの挙動の正しさと安全性を検証できる理論が導かれる可能性が示唆された。
関連論文リスト
- Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - CSCE: Boosting LLM Reasoning by Simultaneous Enhancing of Casual Significance and Consistency [12.961692839965115]
チェーン・オブ・シンキング(CoT)のような連鎖型推論手法は、大規模言語モデル(LLM)の推論タスクの解決において、その役割を担っている。
本稿では、因果的重要性と一貫性を同時に考慮する非チェーン型推論フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T08:28:23Z) - Chain-of-Probe: Examing the Necessity and Accuracy of CoT Step-by-Step [81.50681925980135]
モデル推論における心の変化を探索する手法を提案する。
心的変化のパターンを解析することにより,モデルの推論の正しさを検証した。
我々の検証では、最終回答では正しいが、多くの応答が推論プロセスに誤りを含んでいることが明らかになった。
論文 参考訳(メタデータ) (2024-06-23T15:50:22Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - Making Reasoning Matter: Measuring and Improving Faithfulness of Chain-of-Thought Reasoning [38.60086807496399]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの推論を求めると、よりよいパフォーマンスを示すことが示されている。
モデルの最終回答がどの程度、説明された推論ステップに忠実であるかは定かではない。
FRODOは、小さなLMを調整して正しい推論ステップを生成し、これらのステップに対して堅牢な推論を行うためのフレームワークである。
論文 参考訳(メタデータ) (2024-02-21T17:23:59Z) - A Closer Look at the Self-Verification Abilities of Large Language Models in Logical Reasoning [73.77088902676306]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Measuring Faithfulness in Chain-of-Thought Reasoning [19.074147845029355]
大きな言語モデル(LLM)は、質問に答える前にステップバイステップの"Chain-of-Thought"(CoT)推論を生成する場合、より優れたパフォーマンスを発揮する。
記述された推論が、モデルの実際の推論(すなわち、質問に答えるプロセス)の忠実な説明であるかどうかは不明である。
我々は,CoTに介入する際のモデル予測がどう変化するかを調べることで,CoT推論が不信である可能性の仮説を考察する。
論文 参考訳(メタデータ) (2023-07-17T01:08:39Z) - Deductive Verification of Chain-of-Thought Reasoning [22.79166959432764]
大型言語モデル(LLM)は、様々な推論タスクを実行する上で、Chain-of-Thoughtの恩恵を受ける。
CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積エラーをもたらす可能性がある。
本研究では,自然言語に基づく帰納的推論形式であるNatural Programを提案する。
論文 参考訳(メタデータ) (2023-06-06T17:18:56Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Faithful Reasoning Using Large Language Models [12.132449274592668]
因果構造が問題の根底にある論理構造を反映するプロセスを通じて、LMを忠実な多段階推論を行う方法を示す。
我々の手法は、各ステップが2つの微調整されたLMへの呼び出しから得られる推論ステップをチェーンすることで機能する。
我々は,多段階論理推論と科学的質問応答におけるモデルの有効性を実証し,最終的な解答精度のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-08-30T13:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。