Fugu-MT 論文翻訳(概要): Certified Reasoning with Language Models

論文の概要: Certified Reasoning with Language Models

arxiv url: http://arxiv.org/abs/2306.04031v1
Date: Tue, 6 Jun 2023 21:49:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-08 16:56:07.494372
Title: Certified Reasoning with Language Models
Title（参考訳）: 言語モデルを用いた認定推論
Authors: Gabriel Poesia, Kanishk Gandhi, Eric Zelikman, Noah D. Goodman
Abstract要約: 我々は、状態制約とインクリメンタル制約を使って生成をガイドするガイドと呼ばれる言語モデルのためのツールのクラスを導入する。モデルによってガイドを呼び出すことで、自身の生成を有効なステートメントのセットに制約することができる。論理的推論のための一般的なシステムが、LogicGuideと呼ばれるガイドとしてどのように使用できるかを示す。
参考スコア（独自算出の注目度）: 26.46451997076367
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language models often achieve higher accuracy when reasoning step-by-step in complex tasks. However, their reasoning can be unsound, inconsistent, or rely on undesirable prior assumptions. To tackle these issues, we introduce a class of tools for language models called guides that use state and incremental constraints to guide generation. A guide can be invoked by the model to constrain its own generation to a set of valid statements given by the tool. In turn, the model's choices can change the guide's state. We show how a general system for logical reasoning can be used as a guide, which we call LogicGuide. Given a reasoning problem in natural language, a model can formalize its assumptions for LogicGuide and then guarantee that its reasoning steps are sound. In experiments with the PrOntoQA and ProofWriter reasoning datasets, LogicGuide significantly improves the performance of GPT-3, GPT-3.5 Turbo and LLaMA (accuracy gains up to 35%). LogicGuide also drastically reduces content effects: the interference of prior and current assumptions that both humans and language models have been shown to suffer from. Finally, we explore bootstrapping LLaMA 13B from its own reasoning and find that LogicGuide is critical: by training only on certified self-generated reasoning, LLaMA can self-improve, avoiding learning from its own hallucinations.
Abstract（参考訳）: 言語モデルは複雑なタスクでステップバイステップの推論を行う場合、高い精度を達成することが多い。しかし、それらの推論は不正確、矛盾、あるいは望ましくない前提に依存している可能性がある。これらの問題に対処するために,我々は,生成を導くために状態制約とインクリメンタル制約を使用する言語モデルのためのツールのクラスを紹介する。ガイドはモデルによって呼び出され、ツールから与えられた有効なステートメントのセットに自身の生成を制約することができる。モデルの選択は、ガイドの状態を変えることができる。論理的推論のための一般的なシステムが、LogicGuideと呼ばれるガイドとして利用できることを示す。自然言語における推論問題を考えると、モデルは論理導関数の仮定を定式化し、推論ステップが正しいことを保証できる。 PrOntoQAとProofWriterの推論データセットを用いた実験では、LogicGuideはGPT-3、GPT-3.5 Turbo、LLaMAのパフォーマンスを大幅に改善した(精度は最大35%向上)。 logicguideはまた、コンテンツの影響を劇的に低減する:人間と言語モデルの両方が苦しむことが示されている以前の仮定と現在の仮定の干渉。最後に、llama 13bを自己推論からブートストラップし、logicguideが重要であることを確認する: 認定された自己生成推論のみをトレーニングすることで、llamaは自己改善が可能で、自身の幻覚から学習を回避できる。

関連論文リスト

Reasoning about Uncertainty: Do Reasoning Models Know When They Don't Know? [7.423494663010787]
推論言語モデルは、多くの挑戦的なベンチマークで最先端(SOTA)レコードを設定している。従来の言語モデルと同様に、推論モデルは不正確で確実な応答を生成する傾向があります。これらのモデルをいつ、どの程度信頼するかを知ることは、現実のアプリケーションにおける推論モデルの安全なデプロイに不可欠である。
論文参考訳（メタデータ） (2025-06-22T21:46:42Z)
CoThink: Token-Efficient Reasoning via Instruct Models Guiding Reasoning Models [56.40065909544213]
大規模言語モデル(LLM)は、テスト時間スケーリングとして知られる、テスト時間計算の増加の恩恵を受ける。しかし、推論最適化モデルはしばしば単純な問題さえ考え過ぎ、過度に冗長な出力を生成し、トークン効率を低下させる。 1)強化学習は前方推論の情報密度を減少させ,(2)後方連鎖学習は冗長でしばしば不要な検証ステップを促進する。
論文参考訳（メタデータ） (2025-05-28T06:24:45Z)
Self-Critique Guided Iterative Reasoning for Multi-hop Question Answering [24.446222685949227]
大規模言語モデル(LLM)は知識集約型マルチホップ推論の課題に直面している。自己批判型反復推論(SiGIR)を提案する。 SiGIRは、反復推論プロセスのガイドに自己批判的なフィードバックを使用する。
論文参考訳（メタデータ） (2025-05-25T12:10:24Z)
Scaling Reasoning, Losing Control: Evaluating Instruction Following in Large Reasoning Models [27.142703756752997]
数学的推論タスクにおける命令追従評価のためのベンチマークであるMathIFを紹介する。我々の実証分析では、推論能力のスケールアップと制御可能性の維持の間に一貫した緊張関係が明らかになっている。簡単な介入であっても、性能を推論するコストはかかるものの、部分的に服従を回復できることが示される。
論文参考訳（メタデータ） (2025-05-20T18:18:01Z)
Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文参考訳（メタデータ） (2025-05-15T17:58:33Z)
Implicit Reasoning in Transformers is Reasoning through Shortcuts [10.351525484558376]
テストタイム計算は、言語モデルの複雑な多段階推論機能を強化するための新しいパラダイムとして登場しつつある。マルチステップタスクにおいて,言語モデルがどのように暗黙的推論を行うかを検討する。
論文参考訳（メタデータ） (2025-03-10T17:58:31Z)
Unveiling Reasoning Thresholds in Language Models: Scaling, Fine-Tuning, and Interpretability through Attention Maps [3.8936716676293917]
本研究では,異なるモデルサイズと訓練データを持つデコーダのみの変換言語モデルのコンテキスト内学習能力について検討する。我々は,複数の質問応答におけるコモンセンス推論や帰納的推論といったタスクにおいて,推論性能が著しく向上する重要なパラメータしきい値(160億)を同定する。
論文参考訳（メタデータ） (2025-02-21T00:48:32Z)
Take It Easy: Label-Adaptive Self-Rationalization for Fact Verification and Explanation Generation [15.94564349084642]
自己合理化法は典型的には自然言語推論タスクで使用される。注釈付きラベルを用いて精度予測を学習するためのモデルを微調整する。 3つの大きな言語モデルから合成説明を生成する。
論文参考訳（メタデータ） (2024-10-05T02:19:49Z)
Understanding Reasoning Ability of Language Models From the Perspective of Reasoning Paths Aggregation [110.71955853831707]
我々は、LMを、事前学習時に見られる間接的推論経路を集約することで、新たな結論を導出すると考えている。我々は、推論経路を知識/推論グラフ上のランダムウォークパスとして定式化する。複数のKGおよびCoTデータセットの実験と分析により、ランダムウォークパスに対するトレーニングの効果が明らかにされた。
論文参考訳（メタデータ） (2024-02-05T18:25:51Z)
Preventing Language Models From Hiding Their Reasoning [0.0]
大規模言語モデル(LLM)は、複雑な問題に対する答えを生成するための推論の中間ステップの恩恵を受けることが多い。この研究では、推論の中間段階が不信である可能性のある1つの潜在的方法、すなわち符号化推論に焦点を当てる。言語モデルは、ユーザが推論の中間ステップを理解せずに、符号化推論を利用してより高い性能を得るように訓練できることを示す。
論文参考訳（メタデータ） (2023-10-27T22:02:29Z)
Deductive Verification of Chain-of-Thought Reasoning [22.79166959432764]
大型言語モデル(LLM)は、様々な推論タスクを実行する上で、Chain-of-Thoughtの恩恵を受ける。 CoTはモデルがより包括的な推論プロセスを生成することを可能にするが、中間的推論ステップに重点を置くことは、必然的に幻覚や累積エラーをもたらす可能性がある。本研究では,自然言語に基づく帰納的推論形式であるNatural Programを提案する。
論文参考訳（メタデータ） (2023-06-06T17:18:56Z)
Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文参考訳（メタデータ） (2023-06-01T17:44:35Z)
ALERT: Adapting Language Models to Reasoning Tasks [43.8679673685468]
ALERTは、言語モデルの推論能力を評価するためのベンチマークと分析スイートである。 ALERTは、あらゆる言語モデルに対して、きめ細かい推論スキルを評価するためのテストベッドを提供する。言語モデルは、事前学習状態と比較して、微調整段階の推論スキルを学習する。
論文参考訳（メタデータ） (2022-12-16T05:15:41Z)
Discovering Latent Knowledge in Language Models Without Supervision [72.95136739040676]
既存の言語モデルをトレーニングするテクニックは、真実と正しく一致していない可能性がある。本稿では,言語モデルの内部アクティベーション内部の潜伏知識を,純粋に教師なしの方法で直接見つけることを提案する。本手法は, 教師なし, モデル出力がないにもかかわらず, 大規模言語モデルで表される多様な知識を復元できることを示す。
論文参考訳（メタデータ） (2022-12-07T18:17:56Z)
MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure [129.8481568648651]
複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるためのベンチマークを提案する。推論のマルチホップ連鎖に基づいて、説明形式は3つの主成分を含む。この新たな説明形式を用いて,現在のベストモデルの性能を評価した。
論文参考訳（メタデータ） (2022-10-22T16:01:13Z)
Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought [10.524051272257614]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプトが与えられた顕著な推論能力を示している。本稿では, PrOntoQAと呼ばれる合成質問応答データセットを提案し, それぞれの例を合成世界モデルとして生成する。これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。
論文参考訳（メタデータ） (2022-10-03T21:34:32Z)
The Unreliability of Explanations in Few-Shot In-Context Learning [50.77996380021221]
我々は、テキスト上の推論、すなわち質問応答と自然言語推論を含む2つのNLPタスクに焦点を当てる。入力と論理的に整合した説明は、通常より正確な予測を示す。本稿では,説明の信頼性に基づいてモデル予測を校正する枠組みを提案する。
論文参考訳（メタデータ） (2022-05-06T17:57:58Z)
Leap-Of-Thought: Teaching Pre-Trained Models to Systematically Reason Over Implicit Knowledge [96.92252296244233]
大規模な事前学習言語モデル(LM)は推論能力を得るが、制御は困難である。本研究では,暗黙的,事前学習された知識と明示的な自然言語文を併用して,体系的推論を確実に行うことができることを示す。我々の研究は、シンプルな自然言語文を追加することで、モデルを簡単に修正できるユーザと対話することで、常に改善されるオープンドメインシステムへの道を開く。
論文参考訳（メタデータ） (2020-06-11T17:02:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。