論文の概要: Testing the General Deductive Reasoning Capacity of Large Language
Models Using OOD Examples
- arxiv url: http://arxiv.org/abs/2305.15269v3
- Date: Fri, 3 Nov 2023 18:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 22:29:07.060781
- Title: Testing the General Deductive Reasoning Capacity of Large Language
Models Using OOD Examples
- Title(参考訳): OOD例を用いた大規模言語モデルの一般推論能力の検証
- Authors: Abulhair Saparov, Richard Yuanzhe Pang, Vishakh Padmakumar, Nitish
Joshi, Seyed Mehran Kazemi, Najoung Kim, He He
- Abstract要約: 大型言語モデル(LLM)は、チェーン・オブ・シークレットのプロンプトを与えられた抽象的推論能力を持つ。
我々は、幅広い推論規則を検証し、より単純な実演からより複雑な証明に一般化する能力を測定する。
様々な大きさのLLMと訓練目的の4つの実験により、合成証明に一般化できることが示されている。
- 参考スコア(独自算出の注目度): 36.63316546586304
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Given the intractably large size of the space of proofs, any model that is
capable of general deductive reasoning must generalize to proofs of greater
complexity. Recent studies have shown that large language models (LLMs) possess
some abstract deductive reasoning ability given chain-of-thought prompts.
However, they have primarily been tested on proofs using modus ponens or of a
specific size, and from the same distribution as the in-context examples. To
measure the general deductive reasoning ability of LLMs, we test on a broad set
of deduction rules and measure their ability to generalize to more complex
proofs from simpler demonstrations from multiple angles: depth-, width-, and
compositional generalization. To facilitate systematic exploration, we
construct a new synthetic and programmable reasoning dataset that enables
control over deduction rules and proof complexity. Our experiments on four LLMs
of various sizes and training objectives show that they are able to generalize
to compositional proofs. However, they have difficulty generalizing to longer
proofs, and they require explicit demonstrations to produce hypothetical
subproofs, specifically in proof by cases and proof by contradiction.
- Abstract(参考訳): 証明の空間の難解な大きさを考えると、一般帰納的推論が可能なモデルは、より複雑な証明に一般化しなければならない。
近年の研究では、大規模言語モデル(llm)は、思考連鎖のプロンプトを与える抽象的推論能力を持っていることが示されている。
しかし、それらは主に、モーダスポネンまたは特定の大きさの証明、およびインコンテキストの例と同じ分布でテストされてきた。
LLMの一般的な推論能力を測定するために、我々は幅広い推論規則を検証し、より複雑な証明に一般化する能力を、複数の角度からより単純な演示(深さ、幅、組成の一般化)から測定する。
体系的な探索を容易にするために,推論規則と証明複雑性の制御を可能にする新しい合成およびプログラム可能な推論データセットを構築した。
様々なサイズと訓練目的の4つのllmについて実験した結果,合成証明に一般化できることがわかった。
しかし、それらはより長い証明への一般化が困難であり、特にケースによる証明と矛盾による証明において、仮説的な準防備を生成するために明示的なデモンストレーションを必要とする。
関連論文リスト
- MathGAP: Out-of-Distribution Evaluation on Problems with Arbitrarily Complex Proofs [80.96119560172224]
大規模言語モデル(LLM)は、高い精度で算術語問題を解くことができるが、訓練された言語よりも複雑な問題にどのように一般化するかは、ほとんど分かっていない。
本研究では、任意に複雑な算術証明問題に対する LLM の評価フレームワーク、MathGAP を提案する。
論文 参考訳(メタデータ) (2024-10-17T12:48:14Z) - Inductive or Deductive? Rethinking the Fundamental Reasoning Abilities of LLMs [99.76347807139615]
推論には2つの典型型がある: 帰納的推論(deductive reasoning)と帰納的推論(inductive reasoning)。
大規模言語モデル(LLM)の推論能力に関する広範な研究にもかかわらず、ほとんどの研究は帰納的推論と帰納的推論を厳密に区別することができなかった。
LLM推論では、帰納的または帰納的推論という、より大きな課題を引き起こします。
論文 参考訳(メタデータ) (2024-07-31T18:47:11Z) - Lean-STaR: Learning to Interleave Thinking and Proving [53.923617816215774]
証明の各ステップに先立って,非公式な思考を生成するために,言語モデルをトレーニングするフレームワークであるLean-STaRを紹介します。
Lean-STaRは、Lean定理証明環境内のminiF2F-testベンチマークで最先端の結果を達成する。
論文 参考訳(メタデータ) (2024-07-14T01:43:07Z) - Enhancing Chain-of-Thoughts Prompting with Iterative Bootstrapping in Large Language Models [81.01397924280612]
大規模言語モデル (LLM) は、ステップ・バイ・ステップ・チェーン・オブ・シークレット (CoT) をデモンストレーションとして組み込むことで、様々な推論タスクにおいて高い効果的な性能を達成することができる。
本稿では,イターCoT (Iterative bootstrapping in Chain-of-Thoughts Prompting) を導入する。
論文 参考訳(メタデータ) (2023-04-23T13:54:39Z) - Language Models Are Greedy Reasoners: A Systematic Formal Analysis of
Chain-of-Thought [10.524051272257614]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。
本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。
これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
論文 参考訳(メタデータ) (2022-10-03T21:34:32Z) - multiPRover: Generating Multiple Proofs for Improved Interpretability in
Rule Reasoning [73.09791959325204]
我々は、自然言語の事実と規則の形で明示的な知識を推論することを目的としている言語形式推論の一種に焦点を当てる。
PRoverという名前の最近の研究は、質問に答え、答えを説明する証明グラフを生成することによって、そのような推論を行う。
本研究では,自然言語規則ベースの推論のために複数の証明グラフを生成するという,新たな課題に対処する。
論文 参考訳(メタデータ) (2021-06-02T17:58:35Z) - Finding Good Proofs for Description Logic Entailments Using Recursive
Quality Measures (Extended Technical Report) [15.150938933215906]
証明がいかに理解可能であるかは、使用する計算量だけでなく、特定の証明の性質にも依存する。
我々は、計算と測度の幅広いクラスを対象とする一般的な結果を目指す。
論文 参考訳(メタデータ) (2021-04-27T12:34:13Z) - ProofWriter: Generating Implications, Proofs, and Abductive Statements
over Natural Language [19.917022148887273]
トランスフォーマーは自然言語理論上の論理推論をエミュレートすることが示されている。
ProofWriterと呼ばれる生成モデルは、理論の意味とそれらをサポートする自然言語の証明の両方を確実に生成できることを示しています。
論文 参考訳(メタデータ) (2020-12-24T00:55:46Z) - Measuring Systematic Generalization in Neural Proof Generation with
Transformers [24.157460902865854]
自然言語で符号化された知識に基づいて学習すると,Transformer Language Model (TLM) が論理的推論タスクをどの程度うまく実行できるかを検討する。
具体的には、TLMを利用して自然言語の証明を生成することで、ソフトな定理証明を行う。
より長いトレーニングシーケンスで評価すると,長さ一般化の問題が観察される。
論文 参考訳(メタデータ) (2020-09-30T16:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。