論文の概要: Faithful Chain-of-Thought Reasoning
- arxiv url: http://arxiv.org/abs/2301.13379v1
- Date: Tue, 31 Jan 2023 03:04:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-01 17:52:40.837204
- Title: Faithful Chain-of-Thought Reasoning
- Title(参考訳): 忠実な思考連鎖の推論
- Authors: Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong,
Marianna Apidianaki, Chris Callison-Burch
- Abstract要約: CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。
推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。
提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
- 参考スコア(独自算出の注目度): 29.889590863837505
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Chain-of-Thought (CoT) prompting boosts Language Models' (LM)
performance on a gamut of complex reasoning tasks, the generated reasoning
chain does not necessarily reflect how the model arrives at the answer (aka.
faithfulness). We propose Faithful CoT, a faithful-by-construction framework
that decomposes a reasoning task into two stages: Translation (Natural Language
query $\rightarrow$ symbolic reasoning chain) and Problem Solving (reasoning
chain $\rightarrow$ answer), using an LM and a deterministic solver
respectively. We demonstrate the efficacy of our approach on 10 reasoning
datasets from 4 diverse domains. It outperforms traditional CoT prompting on 9
out of the 10 datasets, with an average accuracy gain of 4.4 on Math Word
Problems, 1.9 on Planning, 4.0 on Multi-hop Question Answering (QA), and 18.1
on Logical Inference, under greedy decoding. Together with self-consistency
decoding, we achieve new state-of-the-art few-shot performance on 7 out of the
10 datasets, showing a strong synergy between faithfulness and accuracy.
- Abstract(参考訳): CoT(Chain-of-Thought)が言語モデル(LM)のパフォーマンスを、複雑な推論タスクで促進する一方で、生成された推論チェーンは、モデルが解答(すなわち忠実性)にどのように到着するかを必ずしも反映していない。
我々は,論理処理を翻訳(自然言語クエリ$\rightarrow$シンボリック推論チェーン)と問題解決(reasoning chain$\rightarrow$ answer)の2段階に分解し,それぞれlmと決定論的解法を用いて忠実に構成するフレームワークであるfancy cotを提案する。
4つの異なるドメインから10の推論データセットに対して,提案手法の有効性を示す。
10つのデータセットのうち9つで、平均精度は4.4で、計画では1.9で、マルチホップ質問回答(QA)では4.0で、論理推論では18.1で上回っている。
自己一貫性のデコードと合わせて、10のデータセットのうち7つで新しい最先端の少数ショット性能を達成し、忠実性と正確性の間に強い相乗効果を示す。
関連論文リスト
- Can We Verify Step by Step for Incorrect Answer Detection? [25.108381471640936]
本稿では,様々な推論タスクにおける推論連鎖と性能の関係を調査するためのベンチマークR2PEを紹介する。
本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。
本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-16T09:29:50Z) - Divide and Conquer for Large Language Models Reasoning [53.27384085738965]
本稿では,大言語モデルにDivide and Conquer戦略を適用することを提案する。
まず、統計的信頼度スコアに基づいて、質問を異なるサブセットに分割する。
そして、ほぼ解決された集合を修正し、精巧に設計された手法で要求されるニュアンス処理を克服します。
論文 参考訳(メタデータ) (2024-01-10T14:38:46Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Stress Testing Chain-of-Thought Prompting for Large Language Models [0.16317061277456998]
本報告では,大規模言語モデル(LLM)の多段階推論能力を向上する上で,CoT(Chain-of-Thought)の有効性について検討する。
各種タスクにおけるGPT-3の性能に及ぼすCoT次数,CoT値,CoT演算子の影響を解析した。
論文 参考訳(メタデータ) (2023-09-28T17:21:33Z) - Language Models Don't Always Say What They Think: Unfaithful
Explanations in Chain-of-Thought Prompting [43.458726163197824]
大規模言語モデル(LLM)は、最終的な出力を与える前にステップバイステップの推論を生成することで、多くのタスクにおいて強力なパフォーマンスを達成することができる。
モデル予測の真の理由を,CoT の説明が体系的に誤って表現できることが判明した。
論文 参考訳(メタデータ) (2023-05-07T22:44:25Z) - Towards Understanding Chain-of-Thought Prompting: An Empirical Study of
What Matters [82.84696222087396]
CoT(Chain-of-Thought)の促進により,大規模言語モデル(LLM)の多段階推論能力が劇的に向上する
無効な実演でもCoT推論が可能であることを示す。
論文 参考訳(メタデータ) (2022-12-20T05:20:54Z) - Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。
算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文 参考訳(メタデータ) (2022-03-21T17:48:52Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。