論文の概要: Language Models Are Greedy Reasoners: A Systematic Formal Analysis of
Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2210.01240v1
- Date: Mon, 3 Oct 2022 21:34:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 14:05:59.279089
- Title: Language Models Are Greedy Reasoners: A Systematic Formal Analysis of
Chain-of-Thought
- Title(参考訳): 言語モデルがグリーディ・ライソナーになる: 秩序の連鎖の体系的形式解析
- Authors: Abulhair Saparov and He He
- Abstract要約: 大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。
本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。
これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
- 参考スコア(独自算出の注目度): 10.524051272257614
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable reasoning capabilities
given chain-of-thought prompts (examples with intermediate reasoning steps).
Existing benchmarks measure reasoning ability indirectly, by evaluating
accuracy on downstream tasks such as mathematical reasoning. However, it is
unclear how these models obtain the answers and whether they rely on simple
heuristics rather than the generated chain-of-thought. To enable systematic
exploration of the reasoning ability of LLMs, we present a new synthetic
question-answering dataset called PrOntoQA, where each example is generated
from a synthetic world model represented in first-order logic. This allows us
to parse the generated chain-of-thought into symbolic proofs for formal
analysis. Our analysis on InstructGPT and GPT-3 shows that LLMs are quite
capable of making correct individual deduction steps, and so are generally
capable of reasoning, even in fictional contexts. However, they have difficulty
with proof planning: When multiple valid deduction steps are available, they
are not able to systematically explore the different options.
- Abstract(参考訳): 大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプト(中間的推論ステップの例)が与えられた顕著な推論能力を示している。
既存のベンチマークは、数学的推論のような下流タスクの正確性を評価することによって、間接的に推論能力を測定する。
しかし、これらのモデルがどのように答えを得るのか、そしてそれらが生成された連鎖よりも単純なヒューリスティックに依存しているかどうかは不明である。
LLMの推論能力の体系的な探索を可能にするために、PrOntoQAと呼ばれる新しい合成質問応答データセットを提案し、各例は1次論理で表される合成世界モデルから生成される。
これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
InstructGPT と GPT-3 を用いて解析した結果,LLM は個々の推論ステップを正しく行うことができ,フィクションの文脈においても推論が可能であることがわかった。
有効な推論ステップが複数用意されている場合、異なる選択肢を体系的に探索することはできません。
関連論文リスト
- A Closer Look at the Self-Verification Abilities of Large Language
Models in Logical Reasoning [79.14479982371984]
論理的推論の文脈において,大規模言語モデル(LLM)の自己検証能力について詳しく検討する。
本研究の主目的は,既存のLCMが誤った推論手順を正確に識別するのに苦労し,自己検証法の有効性を保証できないことにある。
論文 参考訳(メタデータ) (2023-11-14T07:13:10Z) - Are LLMs Rigorous Logical Reasoner? Empowering Natural Language Proof
Generation with Contrastive Stepwise Decoding [11.385103498440932]
本稿では,論理的推論のためのモデルの能力を高めるために,負の推論経路を用いることにより,ステップワイズな証明生成に対照的な復号を導入する。
EntailmentBankの実験は、言語モデルの計画能力を実証する上で、我々の手法の成功を裏付けている。
論文 参考訳(メタデータ) (2023-11-12T05:12:49Z) - Language Models can be Logical Solvers [99.40649402395725]
論理解法の推論過程を直接エミュレートする新しい言語モデルであるLoGiPTを導入する。
LoGiPTは、導出的ソルバの見えない推論過程を明らかにして精錬することから導かれる、新しく構築された命令チューニングデータセットに基づいて微調整される。
論文 参考訳(メタデータ) (2023-11-10T16:23:50Z) - LINC: A Neurosymbolic Approach for Logical Reasoning by Combining
Language Models with First-Order Logic Provers [60.009969929857704]
論理的推論は、科学、数学、社会に潜在的影響を与える可能性のある人工知能にとって重要なタスクである。
本研究では、LINCと呼ばれるモジュール型ニューロシンボリックプログラミングのようなタスクを再構成する。
我々は,FOLIOとProofWriterのバランスの取れたサブセットに対して,ほぼすべての実験条件下で,3つの異なるモデルに対して顕著な性能向上を観察した。
論文 参考訳(メタデータ) (2023-10-23T17:58:40Z) - Towards a Mechanistic Interpretation of Multi-Step Reasoning
Capabilities of Language Models [107.07851578154242]
言語モデル(LM)は強力な多段階推論能力を持つ。
LMが事前学習コーパスから記憶された回答を不正に処理するか,多段階推論機構を用いてタスクを実行するかは明らかでない。
メカニスティックプローブは,ほとんどの例において,モデルの注意から推論ツリーの情報を検出することができることを示す。
論文 参考訳(メタデータ) (2023-10-23T01:47:29Z) - TRIGO: Benchmarking Formal Mathematical Proof Reduction for Generative
Language Models [68.65075559137608]
本稿では, ATP ベンチマーク TRIGO を提案する。このベンチマークでは, ステップバイステップの証明で三角法式を縮小するだけでなく, 論理式上で生成する LM の推論能力を評価する。
我々は、Webから三角法式とその縮小フォームを収集し、手作業で単純化プロセスに注釈を付け、それをリーン形式言語システムに翻訳する。
我々はLean-Gymに基づく自動生成装置を開発し、モデルの一般化能力を徹底的に分析するために、様々な困難と分布のデータセット分割を作成する。
論文 参考訳(メタデータ) (2023-10-16T08:42:39Z) - Deductive Verification of Chain-of-Thought Reasoning [22.79166959432764]
大型言語モデル(LLM)は、様々な推論タスクを実行する上で、Chain-of-Thoughtの恩恵を受ける。
CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積エラーをもたらす可能性がある。
本研究では,自然言語に基づく帰納的推論形式であるNatural Programを提案する。
論文 参考訳(メタデータ) (2023-06-06T17:18:56Z) - LAMBADA: Backward Chaining for Automated Reasoning in Natural Language [11.096348678079574]
LAMBADAと呼ばれる逆チェインアルゴリズムは、推論を4つのサブモジュールに分解する。
LAMBADAは最先端のフォワード推論手法よりも精度が向上することを示す。
論文 参考訳(メタデータ) (2022-12-20T18:06:03Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - ThinkSum: Probabilistic reasoning over sets using large language models [18.123895485602244]
本稿では,2段階の確率的推論パラダイムであるThinkSumを提案する。
我々は,LLM評価タスクのBIGベンチスイートにおけるThinkSumの可能性とメリットを実証する。
論文 参考訳(メタデータ) (2022-10-04T00:34:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。