Fugu-MT 論文翻訳(概要): Faithful Chain-of-Thought Reasoning

論文の概要: Faithful Chain-of-Thought Reasoning

arxiv url: http://arxiv.org/abs/2301.13379v1
Date: Tue, 31 Jan 2023 03:04:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-01 17:52:40.837204
Title: Faithful Chain-of-Thought Reasoning
Title（参考訳）: 忠実な思考連鎖の推論
Authors: Qing Lyu, Shreya Havaldar, Adam Stein, Li Zhang, Delip Rao, Eric Wong, Marianna Apidianaki, Chris Callison-Burch
Abstract要約: CoT(Chain-of-Thought)は、複雑な推論タスクにおいて、言語モデル(LM)のパフォーマンスを高める。推論タスクを2段階に分解する忠実な構築フレームワークであるFithful CoTを提案する。提案手法は,4つの異なる領域の10の推論データセットに対して有効であることを示す。
参考スコア（独自算出の注目度）: 29.889590863837505
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: While Chain-of-Thought (CoT) prompting boosts Language Models' (LM) performance on a gamut of complex reasoning tasks, the generated reasoning chain does not necessarily reflect how the model arrives at the answer (aka. faithfulness). We propose Faithful CoT, a faithful-by-construction framework that decomposes a reasoning task into two stages: Translation (Natural Language query $\rightarrow$ symbolic reasoning chain) and Problem Solving (reasoning chain $\rightarrow$ answer), using an LM and a deterministic solver respectively. We demonstrate the efficacy of our approach on 10 reasoning datasets from 4 diverse domains. It outperforms traditional CoT prompting on 9 out of the 10 datasets, with an average accuracy gain of 4.4 on Math Word Problems, 1.9 on Planning, 4.0 on Multi-hop Question Answering (QA), and 18.1 on Logical Inference, under greedy decoding. Together with self-consistency decoding, we achieve new state-of-the-art few-shot performance on 7 out of the 10 datasets, showing a strong synergy between faithfulness and accuracy.
Abstract（参考訳）: CoT(Chain-of-Thought)が言語モデル(LM)のパフォーマンスを、複雑な推論タスクで促進する一方で、生成された推論チェーンは、モデルが解答(すなわち忠実性)にどのように到着するかを必ずしも反映していない。我々は,論理処理を翻訳(自然言語クエリ$\rightarrow$シンボリック推論チェーン)と問題解決(reasoning chain$\rightarrow$ answer)の2段階に分解し,それぞれlmと決定論的解法を用いて忠実に構成するフレームワークであるfancy cotを提案する。 4つの異なるドメインから10の推論データセットに対して,提案手法の有効性を示す。 10つのデータセットのうち9つで、平均精度は4.4で、計画では1.9で、マルチホップ質問回答(QA)では4.0で、論理推論では18.1で上回っている。自己一貫性のデコードと合わせて、10のデータセットのうち7つで新しい最先端の少数ショット性能を達成し、忠実性と正確性の間に強い相乗効果を示す。

関連論文リスト

How does Chain of Thought Think? Mechanistic Interpretability of Chain-of-Thought Reasoning with Sparse Autoencoding [3.8914132324834045]
CoT(Chain-of- Thought)は、多段階タスクにおけるLarge Language Modelsの精度を高める。しかし、生成された「考え」が真の内部推論過程を反映しているかどうかは未解決である。本研究は,CoT忠実度に関する最初の特徴レベル因果研究である。
論文参考訳（メタデータ） (2025-07-24T10:25:46Z)
Unveiling Confirmation Bias in Chain-of-Thought Reasoning [12.150655660758359]
大型言語モデル(LLM)の推論能力を高めるために、チェーン・オブ・シークレット(CoT)プロンプトが広く採用されている。本研究は認知心理学におけるテキスト確認バイアスのレンズを通してCoTの行動を理解する新しい視点を示す。
論文参考訳（メタデータ） (2025-06-14T01:30:17Z)
To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning [55.52872152909785]
Chain-of-Thought (CoT) は,大規模言語モデル (LLM) から推論能力を引き出すデファクト手法である。私たちは、CoTが主に数学や論理学を含むタスクに強いパフォーマンス上の利点をもたらし、他のタスクよりもはるかに少ない利益をもたらすことを示しています。
論文参考訳（メタデータ） (2024-09-18T17:55:00Z)
Deciphering the Factors Influencing the Efficacy of Chain-of-Thought: Probability, Memorization, and Noisy Reasoning [11.758019716526459]
Chain-of-Thought(CoT)プロンプトは、Large Language Models(LLM)の多段階推論能力を高めることが示されている。 CoTのプロンプト性能は,真の推論の暗黙化と確率バージョンの両方を反映していることを示す。
論文参考訳（メタデータ） (2024-07-01T18:01:07Z)
A Hopfieldian View-based Interpretation for Chain-of-Thought Reasoning [48.51969964676017]
CoT(Chain-of-Thought)は、大規模言語モデルの推論性能を高める上で重要な位置を占めている。本稿では,CoTの精度を制御するためのリード・アンド・コントロル手法を提案する。
論文参考訳（メタデータ） (2024-06-18T04:07:13Z)
Mitigating Misleading Chain-of-Thought Reasoning with Selective Filtering [59.495717939664246]
大規模言語モデルは、複雑な問題を解くためにチェーン・オブ・ソート(CoT)推論技術を活用することで、顕著な能力を示した。本稿では,選択フィルタリング推論(SelF-Reasoner)と呼ばれる新しい手法を提案する。 SelF-ReasonerはScienceQA、ECQA、LastLetterタスクに対して、微調整されたT5ベースラインを一貫して改善する。
論文参考訳（メタデータ） (2024-03-28T06:28:35Z)
Can We Verify Step by Step for Incorrect Answer Detection? [22.984011562264147]
我々は,様々な推論タスクにおける推論連鎖と性能の関係を検討するために,R2PEというベンチマークを導入する。本ベンチマークは,LLMの最終出力の誤りを推論ステップに基づいて測定することを目的としている。本稿では,回答チェックベースラインを大きなマージンで上回るPDS(Process Discernibility score)フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-16T09:29:50Z)
Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文参考訳（メタデータ） (2024-01-11T09:49:15Z)
LINC: A Neurosymbolic Approach for Logical Reasoning by Combining Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文参考訳（メタデータ） (2023-10-23T17:58:40Z)
Self-Consistency Improves Chain of Thought Reasoning in Language Models [53.45015291520658]
我々は,大規模言語モデルの推論精度を大幅に向上させる,単純なアンサンブル戦略,自己整合性を探究する。算術的および常識的推論ベンチマークでは、自己整合性は大幅な精度の向上をもたらす。
論文参考訳（メタデータ） (2022-03-21T17:48:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。