Fugu-MT 論文翻訳(概要): A Training Data Recipe to Accelerate A* Search with Language Models

論文の概要: A Training Data Recipe to Accelerate A* Search with Language Models

arxiv url: http://arxiv.org/abs/2407.09985v1
Date: Sat, 13 Jul 2024 19:21:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 19:58:18.391999
Title: A Training Data Recipe to Accelerate A* Search with Language Models
Title（参考訳）: 言語モデルを用いたA*探索の高速化のためのトレーニングデータ
Authors: Devaansh Gupta, Boyang Li,
Abstract要約: LMベースのナビゲーションは非常に弱く、高い計算コストを発生させるが、大幅な性能改善はない。これらを学ぶための既存の方法は、プランナーの要求を考慮せず、通常多くの計算を必要とする。解を見つけるのに必要な反復回数を最大13倍に減らし,ウォールクロックの高速化を最大5倍にする。
参考スコア（独自算出の注目度）: 3.037409201025504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent works in AI planning have proposed to combine LLMs with iterative tree-search algorithms like A* and MCTS, where LLMs are typically used to calculate the heuristic, guiding the planner towards the goal. However, combining these techniques is not trivial : LM-based heuristics are quite weak, incurring a high computational cost without a significant performance improvement. Existing methods to learn these heuristics do not consider the requirements of the planner, and typically need a lot of compute. Thus, in this work, we propose a distribution to downsample training data by identifying relevant data points to learn a performant heuristic, while constraining computational costs. To arrive at this model, we disentangle the requirements of the planner, in our case A* search, from that of the language model to generalise on this task. Surprisingly, we find an overlap between their requirements; A* requires more accurate predictions on nodes near the goal, and LMs need the same set of nodes for effective generalisation. With these insights, we can quantify the contribution of each node towards accelerating A* search, and subsequently derive a training distribution for learning LM-based heuristics. Following a recent work, we conduct our experiments on two classical planning domains, maze navigation and sokoban, with two test splits per domain, and two conventional loss functions. We reduce the number of iterations required to find the solutions by upto 13x, with a wall-clock speed-up of upto 5x.
Abstract（参考訳）: AI計画における最近の研究は、ALMをA*やMCTSのような反復木探索アルゴリズムと組み合わせることを提案している。しかし、これらの手法を組み合わせることは簡単ではない。LMベースのヒューリスティックは極めて弱く、計算コストが高く、性能が大幅に向上しない。これらのヒューリスティックを学習する既存の方法は、プランナーの要求を考慮せず、通常多くの計算を必要とする。そこで本研究では,計算コストを抑えながら,関連するデータポイントを同定し,性能的ヒューリスティックを学習することで,トレーニングデータをダウンサンプルする分布を提案する。このモデルに到達するために、我々は、A*探索の場合のプランナーの要求を言語モデルから切り離して、このタスクを一般化する。 A*は目標に近いノードに対してより正確な予測を必要とし、LMは効率的な一般化のために同じノードセットを必要とする。これらの知見により,各ノードのA*探索促進への寄与を定量化し,その後,LMに基づくヒューリスティックス学習のためのトレーニング分布を導出する。最近の研究の後、我々は2つの古典的計画領域、迷路ナビゲーションとソコバン、ドメイン毎に2つのテスト分割と2つの従来の損失関数について実験を行った。解を見つけるのに必要な反復回数を最大13倍に減らし,ウォールクロックの高速化を最大5倍にする。

関連論文リスト

LLM-First Search: Self-Guided Exploration of the Solution Space [29.780554400938335]
大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
論文参考訳（メタデータ） (2025-06-05T16:27:49Z)
Iterative Self-Incentivization Empowers Large Language Models as Agentic Searchers [74.17516978246152]
大規模言語モデル(LLM)は、従来の手法を進化させるために情報検索に広く統合されている。エージェント検索フレームワークであるEXSEARCHを提案する。 4つの知識集約ベンチマークの実験では、EXSEARCHはベースラインを大幅に上回っている。
論文参考訳（メタデータ） (2025-05-26T15:27:55Z)
ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文参考訳（メタデータ） (2025-05-07T17:30:22Z)
Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning [50.419872452397684]
Search-R1は推論フレームワークのための強化学習の拡張である。リアルタイム検索とステップバイステップ推論の間に検索クエリを生成する。性能は41%(Qwen2.5-7B)、20%(Qwen2.5-3B)で改善されている。
論文参考訳（メタデータ） (2025-03-12T16:26:39Z)
PickLLM: Context-Aware RL-Assisted Large Language Model Routing [0.5325390073522079]
PickLLMは、RL(Reinforcement Learning)を使用してオンザフライクエリを利用可能なモデルにルーティングする軽量フレームワークである。学習速度の違いに対する収束の速度と,クエリ毎のコストや全体の応答遅延といったハードメトリクスの改善を実証する。
論文参考訳（メタデータ） (2024-12-12T06:27:12Z)
Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [45.82577700155503]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-10-30T13:52:43Z)
Uncertainty-Guided Optimization on Large Language Model Search Trees [42.71167208999792]
大規模言語モデル(LLM)の復号過程における最大可能性列の探索においては,greedy や beam search などの木探索アルゴリズムが標準となっている。 LLMの遷移確率に関する事前の信念を定義し、各反復において最も有望な経路についての後続の信念を得る。モンテカルロ木探索のような高価なシミュレーションに基づく非光学的手法とは異なり、我々の手法は信念からのサンプルのみを必要とする。
論文参考訳（メタデータ） (2024-07-04T14:08:50Z)
LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。 GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文参考訳（メタデータ） (2024-06-29T05:14:04Z)
Thought of Search: Planning with Language Models Through The Lens of Efficiency [22.47015814897628]
我々は近年の傾向が非効率性のために健全性と完全性の両方を放棄していると論じる。本研究では,LLMを用いて検索コンポーネントのコードを生成することにより,全データセットを100%精度で解けることを示す。
論文参考訳（メタデータ） (2024-04-18T01:27:29Z)
Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文参考訳（メタデータ） (2023-10-20T15:01:55Z)
Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文参考訳（メタデータ） (2023-10-14T14:14:38Z)
Alphazero-like Tree-Search can Guide Large Language Model Decoding and Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。 LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文参考訳（メタデータ） (2023-09-29T12:20:19Z)
LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文参考訳（メタデータ） (2023-08-21T02:07:35Z)
Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models [17.059322033670124]
本稿では,アルゴリズム的推論経路を通じて大規模言語モデルを促進する新しい手法を提案する。この結果から,LLMをアルゴリズムを用いて指導すると,アルゴリズム自体よりも性能が向上する可能性が示唆された。
論文参考訳（メタデータ） (2023-08-20T22:36:23Z)
CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。学習方法は,「フリーランチ」仮説の主張を考察する。データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文参考訳（メタデータ） (2023-05-03T17:55:25Z)
Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-01-07T08:00:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。