論文の概要: ReCollab: Retrieval-Augmented LLMs for Cooperative Ad-hoc Teammate Modeling
- arxiv url: http://arxiv.org/abs/2512.22129v1
- Date: Fri, 05 Dec 2025 12:33:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-04 08:45:17.05764
- Title: ReCollab: Retrieval-Augmented LLMs for Cooperative Ad-hoc Teammate Modeling
- Title(参考訳): ReCollab: Retrieval-Augmented LLMs for Cooperative Ad-hoc Teammate Modeling
- Authors: Conor Wallace, Umer Siddique, Yongcan Cao,
- Abstract要約: アドホックなチームワークでは、エージェントが以前見つからなかったチームメイトの振る舞いを推測し、それに応じてポリシーを適用する必要があります。
トラジェクティブ機能から派生した振る舞いを用いて、パートナータイプを分類する言語ベースのフレームワークであるCollabを紹介する。
検索拡張生成(RAG)を組み込んだReCollabに拡張して,トラジェクトリによる推論を安定化する。
- 参考スコア(独自算出の注目度): 2.1130419553264015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ad-hoc teamwork (AHT) requires agents to infer the behavior of previously unseen teammates and adapt their policy accordingly. Conventional approaches often rely on fixed probabilistic models or classifiers, which can be brittle under partial observability and limited interaction. Large language models (LLMs) offer a flexible alternative: by mapping short behavioral traces into high-level hypotheses, they can serve as world models over teammate behavior. We introduce \Collab, a language-based framework that classifies partner types using a behavior rubric derived from trajectory features, and extend it to \ReCollab, which incorporates retrieval-augmented generation (RAG) to stabilize inference with exemplar trajectories. In the cooperative Overcooked environment, \Collab effectively distinguishes teammate types, while \ReCollab consistently improves adaptation across layouts, achieving Pareto-optimal trade-offs between classification accuracy and episodic return. These findings demonstrate the potential of LLMs as behavioral world models for AHT and highlight the importance of retrieval grounding in challenging coordination settings.
- Abstract(参考訳): アドホックチームワーク(AHT)は、エージェントに対して、これまで見つからなかったチームメイトの振る舞いを推測し、それに応じてポリシーを適用することを要求する。
従来のアプローチは固定確率モデルや分類器に依存しており、部分的な可観測性と限定的な相互作用の下で脆くすることができる。
大きな言語モデル(LLM)は柔軟な代替手段を提供する。短い振る舞いトレースを高いレベルの仮説にマッピングすることで、チームメイト行動よりも世界モデルとして機能させることができる。
本稿では,言語ベースのフレームワークである \Collab について紹介する。これは,トラジェクトリ特徴から派生した振舞いルーリックを用いて,パートナータイプを分類するフレームワークであり,それを検索拡張生成(RAG)を組み込んだ,既存のトラジェクトリによる推論の安定化を実現するための \ReCollab に拡張する。
協調的なオーバークッキング環境では、 \Collabはチームメイトタイプを効果的に区別し、 \ReCollabはレイアウト間の適応を一貫して改善し、分類精度とエピソードリターンのパレート最適トレードオフを達成する。
これらの結果は, AHT の行動世界モデルとしての LLM の可能性を示し, コーディネーションに挑戦する上での検索基盤の重要性を強調した。
関連論文リスト
- ARCANE: A Multi-Agent Framework for Interpretable and Configurable Alignment [11.754819989978785]
ARCANEは、複数エージェントの協調問題としてアライメントをフレーム化して、自然言語のルーリックとして利害関係者の好みを動的に表現するフレームワークである。
実用理論に着想を得て, ルーブリック学習を再構築問題として定式化し, 正規化グループシーケンスポリシー最適化(GSPO)手法を適用した。
以上の結果から,ルーブリックに基づく報酬モデルが,複雑な長軸AIシステムに対して,解釈可能な,テスト時適応アライメントへの有望な経路を提供することが示された。
論文 参考訳(メタデータ) (2025-12-05T22:39:54Z) - Sample-Efficient Online Learning in LM Agents via Hindsight Trajectory Rewriting [92.57796055887995]
本稿では,言語モデルエージェントの強化学習から後視体験のリプレイに適応するプロンプトフレームワークECHOを紹介する。
ECHOは失敗した試みで達成できた代替目標のために最適化された軌道を生成する。
我々は、テキストベースのナビゲーションと計画ベンチマークであるXMiniGridのステートフルバージョンと、協調的な情報収集企業シミュレーションであるPeopleJoinQAについて、ECHOを評価した。
論文 参考訳(メタデータ) (2025-10-11T18:11:09Z) - Can Compact Language Models Search Like Agents? Distillation-Guided Policy Optimization for Preserving Agentic RAG Capabilities [5.221077757149821]
強化学習(Reinforcement Learning)は、言語モデルからエージェントRAG行動を引き出す主要なアプローチとして登場した。
コンパクトモデルは初期性能が劣り、粗末な報酬と不安定な訓練をもたらす。
我々はこれらの困難を克服するために蒸留誘導政策最適化(DGPO)を提案する。
論文 参考訳(メタデータ) (2025-08-27T23:57:29Z) - Learning from Peers: Collaborative Ensemble Adversarial Training [1.805627331168865]
本研究では, アンサンブルにおけるサブモデル間の協調学習を強調するための, 効率的で効率的なコラボレーション・アンサンブル・アドバイザリアル・トレーニング(CEAT)を提案する。
CEATはモデルに依存しないため、柔軟性のある様々なアンサンブル法にシームレスに適応することができる。
論文 参考訳(メタデータ) (2025-08-27T13:10:40Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Switchable Representation Learning Framework with Self-compatibility [50.48336074436792]
自己整合性(SFSC)を考慮した交換可能な表現学習フレームワークを提案する。
SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。
SFSCは評価データセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-06-16T16:46:32Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。