論文の概要: Benchmarking the Limits of In-Context Reinforcement Learning for Ad-Hoc Teamwork
- arxiv url: http://arxiv.org/abs/2605.24423v1
- Date: Sat, 23 May 2026 06:39:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.049144
- Title: Benchmarking the Limits of In-Context Reinforcement Learning for Ad-Hoc Teamwork
- Title(参考訳): アドホックチームワークにおけるインコンテキスト強化学習の限界のベンチマーク
- Authors: Yuheng Jing, Kai Li, Ziwen Zhang, Jiajun Zhang, Zeyao Ma, Jiaxi Yang, Lei Zhang, Zhe Wu, Jinmin He, Junliang Xing, Jian Cheng,
- Abstract要約: In-Context Reinforcement Learning (ICRL)は、ファンデーションエージェントが新しいタスクに即時に適応することを可能にするが、Ad-Hoc Teamwork (AHT)において、未知のパートナとの協調が不要な場合、その有効性は未検討のままである。
本稿では,Overcooked-V2 の高スループット JAX 実装をベースに構築された大規模ベンチマーク ICRL4AHT を紹介する。
我々は, アルゴリズム蒸留 (AD) やDPT (Decision-Pretrained Transformer) など, 数百万の遷移にまたがる代表的履歴条件ICRLアルゴリズムを評価する。
- 参考スコア(独自算出の注目度): 45.63941874462679
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Reinforcement Learning (ICRL) has enabled foundation agents to adapt instantaneously to novel tasks, yet its efficacy in Ad-Hoc Teamwork (AHT)-where coordination with unknown partners is required-remains unexplored. To rigorously evaluate this, we introduce a large-scale benchmark ICRL4AHT, built upon a high-throughput JAX implementation of Overcooked-V2. Our benchmark includes a large, diverse teammate suite spanning both RL and heuristic policies, enabling controlled train-test shifts, and provides a reproducible end-to-end pipeline for teammate generation, learning-history collection, dataset construction, and online multi-episode evaluation. We evaluate representative history-conditioned ICRL algorithms, including Algorithm Distillation (AD) and Decision-Pretrained Transformer (DPT), across millions of transitions. Results reveal notable limitations: contrary to their success in single-agent domains, these baselines fail to exhibit robust test-time adaptation in multi-agent settings. Specifically, these methods frequently underperform random baselines across both unseen teammate and unseen layout tracks, with no clear in-context improvement over long horizons. These findings highlight the challenges of strategic inference under partial observability within the OvercookedV2 AHT protocol, establishing our benchmark as a critical testbed for next-generation coordination algorithms.
- Abstract(参考訳): In-Context Reinforcement Learning (ICRL)は、ファンデーションエージェントが新しいタスクに即時に適応することを可能にするが、Ad-Hoc Teamwork (AHT)において、未知のパートナとの協調が不要な場合、その有効性は未検討のままである。
これを厳格に評価するために,Overcooked-V2 の高スループット JAX 実装をベースに構築された大規模ベンチマーク ICRL4AHT を導入する。
我々のベンチマークには、RLとヒューリスティックポリシの両方にまたがる、多種多様なチームメイトスイートが含まれ、コントロールされたテストシフトを可能にし、チームメイト生成、学習履歴収集、データセット構築、オンラインマルチエピソード評価のための再現可能なエンドツーエンドパイプラインを提供する。
我々は, アルゴリズム蒸留 (AD) やDPT (Decision-Pretrained Transformer) など, 数百万の遷移にまたがる代表的履歴条件ICRLアルゴリズムを評価する。
シングルエージェントドメインの成功とは裏腹に、これらのベースラインはマルチエージェント設定で堅牢なテストタイム適応を示すことができません。
具体的には、これらの手法は、目に見えないチームメイトと見えないレイアウトトラックの両方で、しばしばランダムなベースラインを過小評価する。
これらの結果は,OvercookedV2 AHTプロトコルにおける部分観測可能性の下での戦略的推論の課題を浮き彫りにして,我々のベンチマークを次世代協調アルゴリズムの重要なテストベッドとして確立した。
関連論文リスト
- RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback [54.39884046754265]
RetroAgentは、エージェントが複雑なインタラクティブ環境をマスターできるオンラインRLフレームワークである。
実験の結果,RetroAgentはSOTA(State-of-the-art)の性能を達成できた。
論文 参考訳(メタデータ) (2026-03-09T16:23:33Z) - Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions [51.22818149833102]
マルチエージェント強化学習(MARL)は、車間通信(C-V2X)ネットワークにおける無線リソース割り当ての有望なアプローチとして登場した。
しかし、MARLに固有の多面的課題はしばしば絡み合っており、車載環境における個々の影響を理解することは困難である。
我々は, C-V2X RRA を, 複雑さが徐々に増大する多エージェント干渉ゲーム列として定式化し, このギャップを埋める。
論文 参考訳(メタデータ) (2026-02-18T14:46:56Z) - Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration [49.9937230730202]
本稿では,新たなアクター・リファイナ・コラボレーション・フレームワークであるSearch-R2を提案する。
提案手法は,生成過程をアクターに分解し,最初の推論軌道を生成する。
本稿では,検索-R2がモデルスケール全体にわたって強力なRAGとRLベースのベースラインを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-02-03T15:32:09Z) - A Snapshot of Influence: A Local Data Attribution Framework for Online Reinforcement Learning [45.19254609437857]
オンライン強化学習(RL)は、複雑で安全クリティカルな領域で優れているが、サンプルの非効率性、トレーニング不安定性、限定的な解釈可能性に悩まされている。
データ属性は、モデルの振る舞いをトレーニングサンプルに遡る、原則化された方法を提供する。
本稿では、オンラインRLトレーニングのためのアルゴリズムである反復的影響ベースのフィルタリング(IIF)を提案し、ポリシー更新を洗練するための経験的フィルタリングを反復的に行う。
論文 参考訳(メタデータ) (2025-05-25T19:25:57Z) - Keep Various Trajectories: Promoting Exploration of Ensemble Policies in
Continuous Control [17.64972760231609]
本研究ではTEENと呼ばれる新しいアンサンブルRLアルゴリズムを提案する。
TEENは、サブ政治のみを使用する場合と比較して、アンサンブル政策のサンプル多様性を高める。
TEENは、試験された代表環境において、ベースラインアンサンブルDRLアルゴリズムを平均41%向上させる。
論文 参考訳(メタデータ) (2023-10-17T10:40:05Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z) - Multi-Agent Determinantal Q-Learning [39.79718674655209]
マルチエージェント決定型Q-ラーニングを提案する。Q-DPPはエージェントが多様な行動モデルを取得することを奨励する。
分散型協調作業において,Q-DPPがVDN,QMIX,QTRANなどの主要なソリューションを一般化することを実証する。
論文 参考訳(メタデータ) (2020-06-02T09:32:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。