論文の概要: Transformers in the Dark: Navigating Unknown Search Spaces via Bandit Feedback
- arxiv url: http://arxiv.org/abs/2603.24780v1
- Date: Wed, 25 Mar 2026 19:50:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.976142
- Title: Transformers in the Dark: Navigating Unknown Search Spaces via Bandit Feedback
- Title(参考訳): 暗黒のトランスフォーマー:Banditのフィードバックで未知の検索スペースをナビゲート
- Authors: Jungtaek Kim, Thomas Zeng, Ziqian Lin, Minjae Lee, Chungpa Lee, Jy-yong Sohn, Hyung Il Koo, Kangwook Lee,
- Abstract要約: 本研究では,トランスフォーマーは理論的に異なる探索戦略を実装するのに十分な表現力を持ち,これらの戦略をスクラッチから訓練して近似することができることを示す。
我々のトランスフォーマーモデルは、長い地平線や深い木のような目に見えない条件に一般化する可能性を示している。
- 参考スコア(独自算出の注目度): 22.721204992834092
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective problem solving with Large Language Models (LLMs) can be enhanced when they are paired with external search algorithms. By viewing the space of diverse ideas and their follow-up possibilities as a tree structure, the search algorithm can navigate such a search space and guide the LLM toward better solutions more efficiently. While the search algorithm enables an effective balance between exploitation and exploration of a tree-structured space, the need for an external component can complicate the overall problem-solving process. We therefore pose the following question: Can LLMs or their underlying Transformer architectures approximate a search algorithm? To answer this question, we first introduce a simplified framework in which tree extensions and feedback signals are externally specified, allowing for controlled evaluation of search capabilities. We call this setting unknown tree search with bandit feedback. Within this setting, we show that Transformers are theoretically expressive enough to implement distinct search strategies and can be trained from scratch to approximate those strategies. Our Transformer models exhibit the possibility of generalizing to unseen conditions such as longer horizons or deeper trees. Furthermore, we demonstrate that continued task-focused training unlocks the complete capabilities of a pretrained LLM, by fine-tuning the LLM on search trajectories.
- Abstract(参考訳): 大規模言語モデル (LLM) による効果的な問題解決は, 外部探索アルゴリズムと組み合わせた場合, より効果的に行うことができる。
多様なアイデアの空間とそれに続く可能性を木構造として見ることにより、探索アルゴリズムはそのような検索空間をナビゲートし、LLMをより効率的な解へと導くことができる。
探索アルゴリズムは、木構造空間の活用と探索の効果的なバランスを可能にするが、外部コンポーネントの必要性は、全体的な問題解決プロセスを複雑にすることができる。
LLMやその基盤となるTransformerアーキテクチャは、探索アルゴリズムを近似できるだろうか?
そこで我々はまず,木拡張とフィードバック信号が外部に指定され,検索能力の制御が可能な簡易なフレームワークを提案する。
我々はこれを、帯域幅フィードバックで未知のツリーサーチと呼ぶ。
この設定では、トランスフォーマーは、異なる探索戦略を実装するのに十分な理論的表現力を持ち、これらの戦略をスクラッチから訓練して近似することができることを示す。
我々のトランスフォーマーモデルは、長い地平線や深い木のような目に見えない条件に一般化する可能性を示している。
さらに,LLMを探索軌道上で微調整することにより,タスク中心の学習が事前訓練されたLLMの完全な能力を解放できることを実証した。
関連論文リスト
- LLM-First Search: Self-Guided Exploration of the Solution Space [29.780554400938335]
大規模言語モデル(LLM)は、テスト時間計算の増加による推論と計画の大幅な改善を示している。
我々は,新しいTextitLLM Self-Guided Search法である textbfLLM-First Search (LFS) を提案する。
論文 参考訳(メタデータ) (2025-06-05T16:27:49Z) - SEM: Reinforcement Learning for Search-Efficient Large Language Models [26.075903427834838]
大きな言語モデル(LLM)は、推論だけでなく、外部ツールの呼び出しでもその能力を実証している。
既存の強化学習アプローチは、しばしば冗長な探索行動を引き起こす。
本研究では,学習後強化学習フレームワークであるSEMを提案する。
論文 参考訳(メタデータ) (2025-05-12T09:45:40Z) - ZeroSearch: Incentivize the Search Capability of LLMs without Searching [69.55482019211597]
我々はZeroSearchを紹介した。ZeroSearchは、学習中にシミュレーションされた検索を備えた実検索エンジンを使用するための、大規模言語モデルの能力を動機付けるフレームワークである。
提案手法は,LLMを有用な文書とノイズの両方を生成可能な検索モジュールに変換するための,軽量な教師付き微調整から始まる。
論文 参考訳(メタデータ) (2025-05-07T17:30:22Z) - Enhancing LLM Reasoning with Reward-guided Tree Search [95.06503095273395]
o1のような推論アプローチは困難で、研究者はこのオープンな研究領域を前進させようとさまざまな試みを行ってきた。
本稿では,報酬誘導木探索アルゴリズムを用いて,LLMの推論能力を高めるための予備的な検討を行う。
論文 参考訳(メタデータ) (2024-11-18T16:15:17Z) - LiteSearch: Efficacious Tree Search for LLM [70.29796112457662]
本研究では,動的ノード選択とノードレベルの探索予算を備えた新しいガイド付き木探索アルゴリズムを提案する。
GSM8KおよびTabMWPデータセットを用いて行った実験により,本手法はベースライン法に比べて計算コストが大幅に低いことを示した。
論文 参考訳(メタデータ) (2024-06-29T05:14:04Z) - Autonomous Tree-search Ability of Large Language Models [58.68735916408101]
大規模言語モデルは、高度なプロンプト技術で顕著な推論能力に優れています。
近年の研究では、LLMがより困難な推論タスクを解くために受動的木探索を行えるように、検索ロジックを定義するために外部プログラムを活用することが提案されている。
我々は,LLMの自律木探索能力という新しい概念を提案し,正しい解を求める探索軌跡を含む応答を自動生成する。
論文 参考訳(メタデータ) (2023-10-14T14:14:38Z) - Alphazero-like Tree-Search can Guide Large Language Model Decoding and
Training [37.79247073276239]
ToT(Tree-of-Thought)やRAP(Reasoning via Planning)といった最近の研究は、LLMの推論能力を強化することを目的としている。
LLMのためのAlphaZeroライクな木探索学習フレームワーク(TS-LLM)を提案する。
学習価値関数を用いた木探索がLLM復号を導出する方法を示す。
論文 参考訳(メタデータ) (2023-09-29T12:20:19Z) - Reinforcement Learning for Branch-and-Bound Optimisation using
Retrospective Trajectories [72.15369769265398]
機械学習は分岐のための有望なパラダイムとして登場した。
分岐のための単純かつ効果的なRLアプローチであるレトロ分岐を提案する。
我々は現在最先端のRL分岐アルゴリズムを3~5倍に上回り、500の制約と1000の変数を持つMILP上での最高のILメソッドの性能の20%以内である。
論文 参考訳(メタデータ) (2022-05-28T06:08:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。