論文の概要: Faithful Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2301.13379v3
- Date: Wed, 20 Sep 2023 22:19:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 19:54:44.002443
- Title: Faithful Chain-of-Thought Reasoning
- Title(参考訳): 忠実な思考連鎖の推論
- Authors: Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong,
Marianna Apidianaki, Chris Callison-Burch
- Abstract要約: CoT(Chain-of-Thought)は言語モデル(LM)のパフォーマンスを様々な推論タスクで向上させる。
翻訳と問題解決という2つの段階を含む推論フレームワークであるFithful CoTを提案する。
このことは、推論連鎖が最終回答の忠実な説明を提供することを保証している。
- 参考スコア(独自算出の注目度): 51.21714389639417
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Chain-of-Thought (CoT) prompting boosts Language Models' (LM)
performance on a gamut of complex reasoning tasks, the generated reasoning
chain does not necessarily reflect how the model arrives at the answer (aka.
faithfulness). We propose Faithful CoT, a reasoning framework involving two
stages: Translation (Natural Language query $\rightarrow$ symbolic reasoning
chain) and Problem Solving (reasoning chain $\rightarrow$ answer), using an LM
and a deterministic solver respectively. This guarantees that the reasoning
chain provides a faithful explanation of the final answer. Aside from
interpretability, Faithful CoT also improves empirical performance: it
outperforms standard CoT on 9 of 10 benchmarks from 4 diverse domains, with a
relative accuracy gain of 6.3% on Math Word Problems (MWP), 3.4% on Planning,
5.5% on Multi-hop Question Answering (QA), and 21.4% on Relational Inference.
Furthermore, with GPT-4 and Codex, it sets the new state-of-the-art few-shot
performance on 7 datasets (with 95.0+ accuracy on 6 of them), showing a strong
synergy between faithfulness and accuracy.
- Abstract(参考訳): CoT(Chain-of-Thought)が言語モデル(LM)のパフォーマンスを、複雑な推論タスクで促進する一方で、生成された推論チェーンは、モデルが解答(すなわち忠実性)にどのように到着するかを必ずしも反映していない。
我々は,翻訳(自然言語クエリ$\rightarrow$symbolal reasoning chain)と問題解決(reasoning chain$\rightarrow$ answer)の2段階からなる推論フレームワークである honest cot を提案する。
これにより、推論チェインが最終回答の忠実な説明を提供することが保証される。
解釈性以外にも、Faithful CoTは経験的なパフォーマンスも改善している。これは4つの異なる領域からベンチマーク10の標準CoTよりも優れており、相対的な精度は数学語問題(MWP)が6.3%、計画が3.4%、マルチホップ質問回答(QA)が5.5%、関係推論が21.4%向上している。
さらに、GPT-4とCodexでは、7つのデータセット(そのうち6つで95.0以上の精度で)に最新の数ショットのパフォーマンスを設定し、忠実さと正確さの強い相乗効果を示す。
関連論文リスト
- To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。
私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文 参考訳(メタデータ) (2024-09-18T17:55:00Z) - Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning [11.758019716526459]
Chain-of-Thought(CoT)プロンプトは、Large Language Models(LLM)の多段階推論能力を高めることが示されている。
CoTのプロンプト性能は,真の推論の暗黙化と確率バージョンの両方を反映していることを示す。
論文 参考訳(メタデータ) (2024-07-01T18:01:07Z) - A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。
本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T04:07:13Z) - Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。
本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。
SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文 参考訳(メタデータ) (2024-03-28T06:28:35Z) - Can We Verify Step by Step for Incorrect Answer Detection? [22.984011562264147]
我々は,様々な推論タスクにおける推論連鎖と性能の関係を検討するために,R2PEというベンチマークを導入する。
本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。
本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-16T09:29:50Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。