論文の概要: On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length
- arxiv url: http://arxiv.org/abs/2605.02572v1
- Date: Mon, 04 May 2026 13:25:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.300748
- Title: On Training Large Language Models for Long-Horizon Tasks: An Empirical Study of Horizon Length
- Title(参考訳): 長軸タスクのための大規模言語モデルの訓練について--水平長の実証的研究-
- Authors: Sunghwan Kim, Junhee Cho, Beong-woo Kwak, Taeyoon Kwon, Liang Wang, Nan Yang, Xingxing Zhang, Furu Wei, Jinyoung Yeo,
- Abstract要約: 形状訓練力学におけるタスク水平長の役割について検討する。
地平線長の増大はトレーニングのボトルネックとなる。
この制限に対処する上で,地平線低減が鍵となる原理であることを実証する。
- 参考スコア(独自算出の注目度): 62.99653688239127
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) have shown promise as interactive agents that solve tasks through extended sequences of environment interactions. While prior work has primarily focused on system-level optimizations or algorithmic improvements, the role of task horizon length in shaping training dynamics remains poorly understood. In this work, we present a systematic empirical study that examines horizon length through controlled task constructions. Specifically, we construct controlled tasks in which agents face identical decision rules and reasoning structures, but differ only in the length of action sequences required for successful completion. Our results reveal that increasing horizon length alone constitutes a training bottleneck, inducing severe training instability driven by exploration difficulties and credit assignment challenges. We demonstrate that horizon reduction is a key principle to address this limitation, stabilizing training and achieving better performance in long-horizon tasks. Moreover, we find that horizon reduction is related to stronger generalization across horizon lengths: models trained under reduced horizons generalize more effectively to longer-horizon variants at inference time, a phenomenon we refer to as horizon generalization.
- Abstract(参考訳): 大規模言語モデル(LLM)は、環境相互作用の拡張シーケンスを通じてタスクを解く対話型エージェントとして期待されている。
従来の作業は主にシステムレベルの最適化やアルゴリズムの改善に重点を置いてきたが、トレーニングダイナミクスの整形におけるタスク水平長の役割はいまだに理解されていない。
本研究は,制御されたタスク構成を用いて水平長を解析する系統的な実証的研究である。
具体的には、エージェントが同一の決定規則や推論構造に直面する制御タスクを構築するが、完了に要するアクションシーケンスの長さだけが異なる。
その結果,地平線長の増加だけでは訓練のボトルネックとなり,探索難易度や信用課題による厳しい訓練不安定が引き起こされることが明らかとなった。
我々は、この制限に対処し、トレーニングを安定化し、長期的タスクにおいてより良いパフォーマンスを達成する上で、地平線低減が鍵となる原理を実証する。
さらに、地平線減少は地平線長の強い一般化と関係があることが判明した: 地平線減少の下で訓練されたモデルは、推論時により長い地平線変量より効果的に一般化される。
関連論文リスト
- The Long-Horizon Task Mirage? Diagnosing Where and Why Agentic Systems Break [69.91172974854422]
HORIZONは、大規模言語モデル(LLM)エージェントの長期障害挙動を解析するためのクロスドメイン診断ベンチマークである。
我々は,複数のモデルファミリーのSOTA(State-of-the-art)エージェントを評価し,水平方向依存劣化パターンについて検討した。
本研究は, 長期薬物障害の系統的, クロスドメイン解析への最初の方法論的ステップを提供する。
論文 参考訳(メタデータ) (2026-04-13T19:11:42Z) - LongCLI-Bench: A Preliminary Benchmark and Study for Long-horizon Agentic Programming in Command-Line Interfaces [65.11019654023978]
LongCLI-Benchは、長期にわたる現実的なタスクにまたがるエージェント能力を評価するために設計されたベンチマークである。
私たちは、1000以上のコンピュータサイエンスの課題と現実世界のタスクから、20の高品質で長い水平タスクをキュレートしました。
実験によると、最先端のエージェントでさえLongCLI-Benchの20%未満のパスレートを達成する。
論文 参考訳(メタデータ) (2026-02-15T23:12:57Z) - h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning [22.930073904843212]
大規模言語モデルは短期水平推論タスクでは優れているが、水平線長の推論によって性能が低下する。
既存のアプローチでは、推論時の足場やコストのかかるステップレベルの監視に依存しています。
本稿では,既存短軸データのみを用いて,長軸推論機能をブートストラップするスケーラブルな手法を提案する。
論文 参考訳(メタデータ) (2025-10-08T17:58:41Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - State-Covering Trajectory Stitching for Diffusion Planners [29.89423911968709]
State-Covering Trajectory Stitching (SCoTS)は、短いトラジェクトリセグメントを縫合する報酬のないトラジェクトリ拡張法である。
SCoTSは,オフラインの目標条件付きベンチマーク上での拡散プランナの性能と一般化能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-06-01T08:32:22Z) - Divide and Conquer: Grounding LLMs as Efficient Decision-Making Agents via Offline Hierarchical Reinforcement Learning [32.260964481673085]
大規模言語モデル(LLM)は、不十分な探索と長期クレジット割り当てのために、長期的な意思決定タスクに苦しむ。
本稿では, LLMポリシーにパラメータ効率が高く, 一般に適用可能な階層構造を導入する, 革新的なフレームワークを提案する。
我々は,低レベル制御器を抽象的なステップバイステップ計画で制御し,高レベル制御器で学習・指導する手法を開発した。
論文 参考訳(メタデータ) (2025-05-26T09:43:40Z) - Open-World Reinforcement Learning over Long Short-Term Imagination [91.28998327423295]
高次元オープンワールドにおける視覚的強化学習エージェントの訓練は、大きな課題を呈している。
LS-Imagineは、有限個の状態遷移ステップにおいて、イマジネーションの地平線を拡大する。
我々の手法は、MineDojoの最先端技術よりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2024-10-04T17:17:30Z) - Efficient Learning of High Level Plans from Play [57.29562823883257]
本稿では,移動計画と深いRLを橋渡しするロボット学習のフレームワークであるELF-Pについて紹介する。
ELF-Pは、複数の現実的な操作タスクよりも、関連するベースラインよりもはるかに優れたサンプル効率を有することを示す。
論文 参考訳(メタデータ) (2023-03-16T20:09:47Z) - Challenges to Solving Combinatorially Hard Long-Horizon Deep RL Tasks [25.37125069796657]
高いレベルで多くの異なるソリューションを許容するタスクのセットを提案するが、状態の推論が必要であり、最高のパフォーマンスのために数千のステップを先延ばしする必要がある。
汎用階層的RLアプローチは、抽象的なドメイン知識を活用できない限り、しばしば、ディスカウントによる長期的影響を無視する。
論文 参考訳(メタデータ) (2022-06-03T20:38:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。