Fugu-MT 論文翻訳(概要): Self-Steering Language Models

論文の概要: Self-Steering Language Models

arxiv url: http://arxiv.org/abs/2504.07081v1
Date: Wed, 09 Apr 2025 17:54:22 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-17 15:52:52.984521
Title: Self-Steering Language Models
Title（参考訳）: セルフステアリング言語モデル
Authors: Gabriel Grand, Joshua B. Tenenbaum, Vikash K. Mansinghka, Alexander K. Lew, Jacob Andreas,
Abstract要約: DisCIPLは、"セルフステアリング(self-steering)"言語モデルのメソッドである。 DisCIPLはPlannerモデルを使用してタスク固有の推論プログラムを生成する。我々の研究は、高度に並列化されたモンテカルロ推論戦略の設計空間を開く。
参考スコア（独自算出の注目度）: 113.96916935955842
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While test-time reasoning enables language models to tackle complex tasks, searching or planning in natural language can be slow, costly, and error-prone. But even when LMs struggle to emulate the precise reasoning steps needed to solve a problem, they often excel at describing its abstract structure--both how to verify solutions and how to search for them. This paper introduces DisCIPL, a method for "self-steering" LMs where a Planner model generates a task-specific inference program that is executed by a population of Follower models. Our approach equips LMs with the ability to write recursive search procedures that guide LM inference, enabling new forms of verifiable and efficient reasoning. When instantiated with a small Follower (e.g., Llama-3.2-1B), DisCIPL matches (and sometimes outperforms) much larger models, including GPT-4o and o1, on challenging constrained generation tasks. In decoupling planning from execution, our work opens up a design space of highly-parallelized Monte Carlo inference strategies that outperform standard best-of-N sampling, require no finetuning, and can be implemented automatically by existing LMs.
Abstract（参考訳）: テスト時の推論により、言語モデルは複雑なタスクに対処できるが、自然言語での検索や計画は遅く、コストがかかり、エラーが発生しやすい。しかし、LMが問題の解決に必要な正確な推論手順をエミュレートするのに苦労しても、ソリューションの検証方法とそれらの検索方法の両方で、その抽象的な構造を記述するのに長けていることが多い。本稿では,Follower モデル群によって実行されるタスク固有推論プログラムをプランナーモデルで生成する "セルフステアリング" 方式である DisCIPL を紹介する。提案手法は,LM推論を導出する再帰的探索手順を記述し,新たな検証と効率的な推論を可能にする。小さなFollower(例えばLlama-3.2-1B)でインスタンス化されると、 DisCIPL は GPT-4o や o1 を含むより大きなモデルと、制約のある生成タスクでマッチする。実行時の計画の切り離しにおいて,我々の研究は,標準のベスト・オブ・Nサンプリングを上回り,微調整を必要とせず,既存のLMによって自動的に実装可能な,高度に並列化されたモンテカルロ推論戦略の設計空間を開く。

関連論文リスト

Grammar-Guided Evolutionary Search for Discrete Prompt Optimisation [63.97051732013936]
本稿では,2段階からなる離散的な自動最適化に対する進化的探索手法を提案する。第1段階では、文法誘導型遺伝的プログラミングが実行され、プロンプト生成プログラムを合成する。第2段階では、局所探索を用いて、最高のパフォーマンスプログラムの周辺を探索する。
論文参考訳（メタデータ） (2025-07-14T14:34:15Z)
RLAP: A Reinforcement Learning Enhanced Adaptive Planning Framework for Multi-step NLP Task Solving [14.11486479935094]
下流自然言語処理(NLP)タスクにおける大規模言語モデル(LLM)の性能向上のために,多段階計画が広く採用されている。マルチステップNLPタスクをよりよく解くために,RLAP(Reinforcement Learning enhanced Adaptive Planning framework)を提案する。
論文参考訳（メタデータ） (2025-05-17T08:06:14Z)
Inference-Time Intervention in Large Language Models for Reliable Requirement Verification [2.3759432635713895]
推論時間介入技術は微調整に代わる有望な手段である。我々は、介入が通常時間を要する要求検証プロセスを自動化するためのきめ細かい制御を可能にする方法を実証する。提案手法は, ベースラインモデルと微調整手法の両方において, 頑健で信頼性の高い出力を実現する。
論文参考訳（メタデータ） (2025-03-18T10:49:36Z)
Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文参考訳（メタデータ） (2025-02-26T16:52:31Z)
Interactive and Expressive Code-Augmented Planning with Large Language Models [62.799579304821826]
大きな言語モデル(LLM)は、常識的推論と対話的な意思決定において強力な能力を示す。近年,制御フローなどのコード・アジャセント技術を用いてLCM出力を構造化し,計画性能を向上させる技術が提案されている。完全コード表現で動的なLEM計画手法であるREPL-Planを提案する。
論文参考訳（メタデータ） (2024-11-21T04:23:17Z)
Instruction Position Matters in Sequence Generation with Large Language Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文参考訳（メタデータ） (2023-08-23T12:36:57Z)
Coupling Large Language Models with Logic Programming for Robust and General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文参考訳（メタデータ） (2023-07-15T03:29:59Z)
Large Language Models as General Pattern Machines [64.75501424160748]
我々は,事前訓練された大規模言語モデル (LLM) が,複雑なトークンシーケンスを自動回帰的に完了することを示す。驚いたことに、語彙からランダムにサンプリングされたトークンを用いてシーケンスが表現された場合でも、パターン完了の習熟度を部分的に保持することができる。本研究では,ロボット工学における問題に対して,これらのゼロショット機能がどのように適用されるかを検討する。
論文参考訳（メタデータ） (2023-07-10T17:32:13Z)
Sequential Monte Carlo Steering of Large Language Models using Probabilistic Programs [46.721838623748816]
本研究では,大規模言語モデルの出力に対する構文的制約と意味的制約を強制する新しい推論時手法を提案する。主要なアイデアは、言語生成タスクを離散確率列モデルのクラスにおける後部推論問題として指定することである。ビームサーチと同様の計算コストのために、SMCは多様なタスクを解決するためにLSMを操ることができる。
論文参考訳（メタデータ） (2023-06-05T17:55:05Z)
Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文参考訳（メタデータ） (2023-05-25T15:04:01Z)
SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-05-16T17:55:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。