論文の概要: Language-based Trial and Error Falls Behind in the Era of Experience
- arxiv url: http://arxiv.org/abs/2601.21754v2
- Date: Sat, 31 Jan 2026 11:31:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 15:03:50.787862
- Title: Language-based Trial and Error Falls Behind in the Era of Experience
- Title(参考訳): 言語ベースの試行錯誤,経験の時代に遅れる
- Authors: Haoyu Wang, Guozheng Ma, Shugang Cui, Yilun Kong, Haotian Luo, Li Shen, Mengya Gao, Yichao Wu, Xiaogang Wang, Dacheng Tao,
- Abstract要約: 大きな言語モデル(LLM)は、言語ベースのエージェントタスクでは優れているが、見つからない非言語環境への適用性は依然として限られている。
本研究では,探索の禁止コストが主なボトルネックであることを示す。
セマンティック・エクスプロイトから探索を分離する新しいフレームワークであるSCOUTを提案する。
- 参考スコア(独自算出の注目度): 50.503828360874536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel in language-based agentic tasks, their applicability to unseen, nonlinguistic environments (e.g., symbolic or spatial tasks) remains limited. Previous work attributes this performance gap to the mismatch between the pretraining distribution and the testing distribution. In this work, we demonstrate the primary bottleneck is the prohibitive cost of exploration: mastering these tasks requires extensive trial-and-error, which is computationally unsustainable for parameter-heavy LLMs operating in a high dimensional semantic space. To address this, we propose SCOUT (Sub-Scale Collaboration On Unseen Tasks), a novel framework that decouples exploration from exploitation. We employ lightweight "scouts" (e.g., small MLPs) to probe environmental dynamics at a speed and scale far exceeding LLMs. The collected trajectories are utilized to bootstrap the LLM via Supervised Fine-Tuning (SFT), followed by multi-turn Reinforcement Learning (RL) to activate its latent world knowledge. Empirically, SCOUT enables a Qwen2.5-3B-Instruct model to achieve an average score of 0.86, significantly outperforming proprietary models, including Gemini-2.5-Pro (0.60), while saving about 60% GPU hours consumption.
- Abstract(参考訳): 大言語モデル(LLM)は言語ベースのエージェントタスクに優れるが、その非言語的環境(記号的タスクや空間的タスクなど)への適用性は依然として限られている。
以前の作業では、このパフォーマンスギャップは、事前学習ディストリビューションとテストディストリビューションのミスマッチに起因しています。
これらのタスクをマスターするには広範囲な試行錯誤が必要であり、高次元のセマンティック空間で動作するパラメータ重み LLM に対して計算的に持続不可能である。
そこで我々はSCOUT(Sub-Scale Collaboration on Unseen Tasks)を提案する。
環境力学をLLMを超える速度とスケールで探索するために、軽量な"スクート"(例:小型MLP)を用いている。
収集した軌道は、スーパーバイザード・ファイン・チューニング(SFT)を介してLLMをブートストラップし、続いてマルチターン強化学習(RL)によってその潜伏世界知識を活性化する。
実証的に、SCOUTはQwen2.5-3B-Instructモデルで平均スコア0.86を達成でき、Gemini-2.5-Pro (0.60) などプロプライエタリモデルよりも大幅に優れ、GPU使用時間の約60%を節約できる。
関連論文リスト
- How to Train Your LLM Web Agent: A Statistical Diagnosis [96.86317871461834]
LLMウェブエージェントのポストトレーニングにおける計算割当に関する統計学的基礎研究について述べる。
提案手法では,Llama 3.1 8Bの学生を対象に,教師付き微調整(SFT)とオンライン強化学習を用いて,Llama 3.3 70Bの教師を模倣する2段階のパイプラインを用いた。
以上の結果から,SFTとオンラインRLの組み合わせは,WorkArenaとMiniWob++のいずれにおいても,単独でのアプローチよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-05T17:12:33Z) - Catastrophic Forgetting in LLMs: A Comparative Analysis Across Language Tasks [0.0]
大規模言語モデル(LLM)は、かなり高度な自然言語処理(NLP)を持つ
本研究では,主要なNLUタスクに対する各種オープンソースLLMの連続的な微調整について検討する。
以上の結果から,Phi-3.5-miniのようなモデルでは,強い学習能力を維持しつつ,最小限の忘れを生じさせることが示唆された。
論文 参考訳(メタデータ) (2025-04-01T23:06:55Z) - Efficient Multitask Learning in Small Language Models Through Upside-Down Reinforcement Learning [8.995427413172148]
小型言語モデル (SLM) はマルチタスクのプロンプト生成タスクにおいて競合性能を達成することができる。
Llama-3, Qwen2, Mistral など最先端モデルの 5% 以内の妥当性スコアを達成できる SLM のトレーニングを行う。
論文 参考訳(メタデータ) (2025-02-14T01:39:45Z) - Reward Guidance for Reinforcement Learning Tasks Based on Large Language Models: The LMGT Framework [1.5802986215292307]
Language Model Guided reward Tuning (LMGT)は、強化学習のための新しい、サンプル効率の高いフレームワークである。
我々は,LMGTが探索と搾取のバランスを良好に保ち,エージェントの探索行動の指針となることを示す。
以上の結果から,LMGTはRL学習期間中に必要な計算資源を大幅に削減できる可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-07T07:40:43Z) - Can large language models explore in-context? [87.49311128190143]
単純なマルチアームバンディット環境において,エージェントとして大規模言語モデルをデプロイする。
モデルが実質的な介入なしには、探索にしっかりと関わっていないことが分かっています。
論文 参考訳(メタデータ) (2024-03-22T17:50:43Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。