論文の概要: Certified Deductive Reasoning with Language Models
- arxiv url: http://arxiv.org/abs/2306.04031v2
- Date: Wed, 8 Nov 2023 01:53:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 19:36:20.878242
- Title: Certified Deductive Reasoning with Language Models
- Title(参考訳): 言語モデルを用いた認定推論
- Authors: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
- Abstract要約: Emphguidesと呼ばれる言語モデルのためのツールのクラスを導入し、ステートとインクリメンタルな制約を使って生成をガイドします。
モデルによってガイドを呼び出すことで、自身の生成を有効なステートメントのセットに制約することができる。
論理的推論のための一般的なシステムが,textscLogicGuideと呼ばれるガイドとしてどのように使用できるかを示す。
- 参考スコア(独自算出の注目度): 37.51289654360009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models often achieve higher accuracy when reasoning step-by-step in
complex tasks. However, even when arriving at a correct final answer, their
rationales are often logically unsound or inconsistent. This is a major issue
when reliable reasoning traces are needed, such when fine-tuning on
model-generated reasoning for self-improvement. To tackle these issues, we
introduce a class of tools for language models called \emph{guides}, that use
state and incremental constraints to guide generation. A guide can be invoked
by the model to constrain its own generation to a set of valid statements given
by the tool. In turn, the model's choices can change the guide's state. We show
how a general system for logical reasoning can be used as a guide, which we
call \textsc{LogicGuide}. Given a reasoning problem in natural language, a
model can formalize its assumptions for \textsc{LogicGuide} and guarantee that
its step-by-step reasoning is sound. In experiments on PrOntoQA, ProofWriter
and Syllogism Validity datasets, \textsc{LogicGuide} significantly improves the
performance of GPT-3, GPT-3.5 Turbo and LLaMA (accuracy gains up to 35\%),
while drastically reducing \emph{content effects} -- the interference between
unwanted prior assumptions and reasoning, which humans and language models
suffer from. We then explore bootstrapping GPT-3.5 Turbo and LLaMA using their
own reasoning traces. We find that LogicGuide is critical: by training only on
certified self-generated reasoning, models can self-improve, avoiding learning
from their own hallucinations. Moreover, bootstrapped models enjoy significant
boosts on ReClor, a challenging real-world reasoning dataset, even when not
relying on formalization at inference time.
- Abstract(参考訳): 言語モデルは複雑なタスクでステップバイステップの推論を行う場合、高い精度を達成することが多い。
しかし、たとえ正解に達したとしても、その理性はしばしば論理的に無音または矛盾する。
自己改善のためのモデル生成推論の微調整など、信頼できる推論トレースが必要な場合、これは大きな問題です。
これらの問題に対処するために、我々は、状態制約とインクリメンタル制約を使って生成をガイドする言語モデルのためのツールのクラス「emph{guides}」を紹介した。
ガイドはモデルによって呼び出され、ツールから与えられた有効なステートメントのセットに自身の生成を制約することができる。
モデルの選択は、ガイドの状態を変えることができる。
論理的推論のための一般的なシステムをガイドとして使う方法を示し,それを「textsc{LogicGuide}」と呼ぶ。
自然言語における推論問題を考えると、モデルは \textsc{logicguide} の仮定を定式化し、ステップバイステップの推論が正しいことを保証できる。
PrOntoQA、ProofWriter、Syllogismのデータセットでの実験では、 \textsc{LogicGuide}はGPT-3、GPT-3.5 Turbo、LLaMAのパフォーマンスを著しく向上させ(精度は最大35倍に向上する)、また \emph{content effect} -- 望ましくない前提と推論の間の干渉を劇的に低減する。
次に, GPT-3.5 Turbo と LLaMA のブートストラップについて, 独自の推論トレースを用いて検討する。
認定された自己生成推論のみをトレーニングすることで、モデルは自己改善し、自身の幻覚から学ぶことを避けることができる。
さらに、ブートストラップされたモデルは、推論時の形式化に依存しなくても、現実の困難な推論データセットであるReClor上で大幅に向上する。
関連論文リスト
- Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。
注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。
3つの大きな言語モデルから合成説明を生成する。
論文 参考訳(メタデータ) (2024-10-05T02:19:49Z) - Preventing Language Models From Hiding Their Reasoning [0.0]
大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。
この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。
言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
論文 参考訳(メタデータ) (2023-10-27T22:02:29Z) - Deductive Verification of Chain-of-Thought Reasoning [22.79166959432764]
大型言語モデル(LLM)は、様々な推論タスクを実行する上で、Chain-of-Thoughtの恩恵を受ける。
CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積エラーをもたらす可能性がある。
本研究では,自然言語に基づく帰納的推論形式であるNatural Programを提案する。
論文 参考訳(メタデータ) (2023-06-06T17:18:56Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z) - ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。
ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。
言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文 参考訳(メタデータ) (2022-12-16T05:15:41Z) - Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。
本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。
本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文 参考訳(メタデータ) (2022-12-07T18:17:56Z) - MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。
推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。
この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文 参考訳(メタデータ) (2022-10-22T16:01:13Z) - Language Models Are Greedy Reasoners: A Systematic Formal Analysis of
Chain-of-Thought [10.524051272257614]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。
本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。
これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
論文 参考訳(メタデータ) (2022-10-03T21:34:32Z) - The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。
入力と論理的に整合した説明は、通常より正確な予測を示す。
本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-06T17:57:58Z) - Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason
Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。
本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。
我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文 参考訳(メタデータ) (2020-06-11T17:02:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。