論文の概要: Interaction as Intelligence Part II: Asynchronous Human-Agent Rollout for Long-Horizon Task Training
- arxiv url: http://arxiv.org/abs/2510.27630v2
- Date: Mon, 03 Nov 2025 10:53:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 14:12:28.037165
- Title: Interaction as Intelligence Part II: Asynchronous Human-Agent Rollout for Long-Horizon Task Training
- Title(参考訳): インテリジェンスとしてのインタラクション その2: 長期タスクトレーニングのための非同期ヒューマンエージェントロールアウト
- Authors: Dayuan Fu, Yunze Wu, Xiaojie Cai, Lyumanshan Ye, Shijie Xia, Zhen Huang, Weiye Si, Tianze Xu, Jie Sun, Keyu Li, Mohan Jiang, Junfei Wang, Qishuo Hua, Pengrui Lu, Yang Xiao, Pengfei Liu,
- Abstract要約: 我々は非同期なヒューマンガイダンスとアクションレベルのデータフィルタリングを統合するサンプリングフレームワークApolloを紹介する。
実験の結果,Apolloはトレーニングされていないベースラインに対して50%以上の改善を達成し,ヒューマンインタラクションを伴わない変異体に対して28%の改善を実現していることがわかった。
- 参考スコア(独自算出の注目度): 29.758745480975943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM) agents have recently shown strong potential in domains such as automated coding, deep research, and graphical user interface manipulation. However, training them to succeed on long-horizon, domain-specialized tasks remains challenging. Current methods primarily fall into two categories. The first relies on dense human annotations through behavior cloning, which is prohibitively expensive for long-horizon tasks that can take days or months. The second depends on outcome-driven sampling, which often collapses due to the rarity of valid positive trajectories on domain-specialized tasks. We introduce Apollo, a sampling framework that integrates asynchronous human guidance with action-level data filtering. Instead of requiring annotators to shadow every step, Apollo allows them to intervene only when the agent drifts from a promising trajectory, by providing prior knowledge, strategic advice, etc. This lightweight design makes it possible to sustain interactions for over 30 hours and produces valuable trajectories at a lower cost. Apollo then applies supervision control to filter out sub-optimal actions and prevent error propagation. Together, these components enable reliable and effective data collection in long-horizon environments. To demonstrate the effectiveness of Apollo, we evaluate it using InnovatorBench. Our experiments show that when applied to train the GLM-4.5 model on InnovatorBench, Apollo achieves more than a 50% improvement over the untrained baseline and a 28% improvement over a variant trained without human interaction. These results highlight the critical role of human-in-the-loop sampling and the robustness of Apollo's design in handling long-horizon, domain-specialized tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、最近、自動コーディング、ディープリサーチ、グラフィカルユーザインタフェース操作など、ドメインに強い可能性を示している。
しかし、長期にわたるドメイン特化タスクを成功させるために彼らを訓練することは依然として困難である。
現在の方法は主に2つのカテゴリに分類される。
1つ目は、行動クローニングによる密集した人間のアノテーションに依存している。
2つ目は結果駆動サンプリング(英語版)に依存し、これはドメイン特化タスクにおける正の正の軌道の希薄さによってしばしば崩壊する。
我々は非同期なヒューマンガイダンスとアクションレベルのデータフィルタリングを統合するサンプリングフレームワークApolloを紹介する。
アノテータがすべてのステップをシャドウする代わりに、Apolloはエージェントが有望な軌道からドリフトしたときのみ、事前の知識や戦略的アドバイスを提供することで介入することができる。
この軽量な設計により、30時間以上の相互作用を維持でき、より低コストで貴重な軌道を製造できる。
次に、Apolloは監督制御を適用して、サブ最適動作をフィルタリングし、エラーの伝搬を防ぐ。
これらのコンポーネントが組み合わさって、長距離環境における信頼性と効果的なデータ収集を可能にする。
Apollo の有効性を示すため,InnovatorBench を用いて評価を行った。
InnovatorBench上でのGLM-4.5モデルのトレーニングに適用した場合,Apolloはトレーニングされていないベースラインに対して50%以上の改善を実現し,ヒューマンインタラクションを伴わないモデルでは28%の改善を実現した。
これらの結果は、長期のドメイン特化タスクを扱う上で、ヒト・イン・ザ・ループ・サンプリングとアポロ設計の堅牢性の重要性を強調している。
関連論文リスト
- UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z) - TrajBooster: Boosting Humanoid Whole-Body Manipulation via Trajectory-Centric Learning [79.59753528758361]
両足のVLAを促進するために、豊富な車輪付きヒューマノイドデータを活用するクロス・エボディメント・フレームワークであるTrajBoosterを提案する。
私たちのキーとなる考え方は、形態素に依存しないインターフェースとして、エンドエフェクタ・トラジェクトリを使用することです。
以上の結果から,TrajBoosterは既存の車輪付きヒューマノイドデータにより,二足歩行ヒューマノイドVLAの性能を効率的に向上させることができることがわかった。
論文 参考訳(メタデータ) (2025-09-15T12:25:39Z) - Bootstrapping Imitation Learning for Long-horizon Manipulation via Hierarchical Data Collection Space [16.787049521081983]
人間の実演による模倣学習(IL)はロボット操作タスクの有望な方法である。
本稿では,ロボット模倣学習のための階層型データ収集空間(HD-Space)について紹介する。
我々は2つのシミュレーションと5つの実世界の長距離操作タスクに対して経験的評価を行う。
論文 参考訳(メタデータ) (2025-05-23T01:57:45Z) - Autonomous Vehicle Controllers From End-to-End Differentiable Simulation [57.278726604424556]
そこで我々は,AVコントローラのトレーニングにAPG(analytic Policy gradients)アプローチを適用可能なシミュレータを提案し,その設計を行う。
提案するフレームワークは, エージェントがより根底的なポリシーを学ぶのを助けるために, 環境力学の勾配を役立てる, エンド・ツー・エンドの訓練ループに, 微分可能シミュレータを組み込む。
ダイナミクスにおけるパフォーマンスとノイズに対する堅牢性の大幅な改善と、全体としてより直感的なヒューマンライクな処理が見られます。
論文 参考訳(メタデータ) (2024-09-12T11:50:06Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。