論文の概要: Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
- arxiv url: http://arxiv.org/abs/2605.12655v1
- Date: Tue, 12 May 2026 19:01:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.62862
- Title: Macro-Action Based Multi-Agent Instruction Following through Value Cancellation
- Title(参考訳): マクロ・アクションに基づくマルチエージェント・インストラクション
- Authors: Wo Wei Lin, Ethan Rathbun, Enrico Marchesini Xiang Zhi Tan,
- Abstract要約: 命令コンプライアンスのためのマクロアクション値補正(MAVIC)を提案する。
MAVICは、入力された命令対象を補正し、現在の目的の下で継続値を復元することで、命令境界でのベルマンバックアップを修正する。
複雑化する協調型マルチエージェント環境において,MAVICは基本タスク性能を保ちながら高い命令コンプライアンスを実現する。
- 参考スコア(独自算出の注目度): 1.2744523252873352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning (MARL) in real-world use cases may need to adapt to external natural language instructions that interrupt ongoing behavior and conflict with long-horizon objectives. However, conditioning rewards on instructions introduces a fundamental failure mode as Bellman updates couple value estimates across instruction contexts, leading to inconsistent values when instructions interrupt macro-actions. We propose Macro-Action Value Correction for Instruction Compliance (MAVIC), which corrects Bellman backups at instruction boundaries by correcting the incoming instruction objective and restoring the continuation value under the current objective. Unlike reward shaping, MAVIC modifies the bootstrapping target itself, enabling consistent value estimation under stochastic instruction switching within a unified policy. We provide theoretical analysis and an actor-critic implementation, and show that MAVIC achieves high instruction compliance while preserving base task performance in increasingly complex cooperative multi-agent environments.
- Abstract(参考訳): 実世界のユースケースにおけるマルチエージェント強化学習(MARL)は、継続的な振る舞いを中断し、長期の目的と矛盾する外部の自然言語命令に適応する必要がある。
しかし、命令に対する条件付けの報酬は、Bellmanが命令コンテキスト間でのペア値の見積を更新し、命令がマクロアクションを中断するときに一貫性のない値をもたらすため、基本的な障害モードを導入する。
我々は,命令対象の入力を補正し,現在の目的の下で継続値を復元することにより,命令境界におけるベルマンバックアップを補正するマクロ・アクション値補正(MAVIC)を提案する。
報酬のシェーピングとは異なり、MAVICはブートストラップターゲット自体を修正し、一貫したポリシー内で確率的命令切替の下で一貫した値推定を可能にする。
理論的解析とアクタ・クリティカルな実装を行い,MAVICは,より複雑な協調型マルチエージェント環境において,基本タスク性能を維持しながら高い命令コンプライアンスを実現することを示す。
関連論文リスト
- Autonomous Adversary: Red-Teaming in the age of LLM [1.4302803674538154]
言語モデルエージェント(LMA)は、レッドチーム操作を増強するための強力なプリミティブとして現れている。
我々は、これらのエージェントが中核攻撃機能とどのように交わるかを分析し、現在の強度と限界を評価する。
制御された対向エミュレーション環境における2つの横移動シナリオのLMAをベンチマークする。
論文 参考訳(メタデータ) (2026-05-07T16:07:41Z) - Bridging Values and Behavior: A Hierarchical Framework for Proactive Embodied Agents [26.613956143957548]
textitValuePlannerは階層的な認知アーキテクチャで、低レベルのアクション実行から高レベルの値スケジューリングを分離する。
我々の研究は、内在的価値をブリッジする構造的なアプローチと、自律的エージェントに対する接地行動を提供する。
論文 参考訳(メタデータ) (2026-04-30T10:43:55Z) - TAG: Target-Agnostic Guidance for Stable Object-Centric Inference in Vision-Language-Action Models [59.13964209628383]
VLA(Vision-Language-Action)ポリシーは、言語指示や視覚的な観察をロボット行動にマッピングする上で大きな進歩を見せている。
本稿では,VLA政策における乱れや外見に起因したバイアスを明示的に軽減する単純な推論時ガイダンス機構であるTAG(Target-Agnostic Guidance)を提案する。
我々は, LIBERO, LIBERO-Plus, VLABenchなどの標準操作ベンチマーク上でTAGを評価し, クラッタ下での堅牢性を一貫して改善し, ニアミスや不正なオブジェクト実行を減らす。
論文 参考訳(メタデータ) (2026-03-25T17:56:32Z) - Restoring Linguistic Grounding in VLA Models via Train-Free Attention Recalibration [24.562540060971273]
VLA(Vision-Language-Action)モデルにより、ロボットは自然言語命令から直接操作タスクを実行することができる。
言語命令がシーンに矛盾する場合でも、VLAポリシーが視覚的に妥当な動作を実行し続ける重要な障害モードを明らかにする。
Instruction-Guided Attention Recalibration (IGAR) を提案する。
論文 参考訳(メタデータ) (2026-03-06T08:01:36Z) - Robust Skills, Brittle Grounding: Diagnosing Restricted Generalization in Vision-Language Action Policies via Multi-Object Picking [6.713814849613683]
視覚言語アクション(VLA)ポリシーは、比較的少数のデモで強力な操作ベンチマーク性能を報告している。
本研究は, オブジェクト配置のばらつきを, 作業空間のランダム化まで徐々に増大させる多目的ピッキング研究である。
SmolVLAや$_0.5$といった代表的VLAポリシでは、操作プリミティブの実行は、命令条件のタスク成功よりもかなり信頼性が高いことが分かりました。
論文 参考訳(メタデータ) (2026-02-27T16:20:04Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Contrastive Instruction Tuning [61.97704869248903]
意味論的に等価な命令-インスタンスペア間の類似性を最大化するために、コントラスト命令チューニングを提案する。
PromptBenchベンチマークの実験によると、CoINはLLMの頑健さを一貫して改善し、文字、単語、文、意味のレベルを平均して2.5%の精度で変化させる。
論文 参考訳(メタデータ) (2024-02-17T00:09:32Z) - LACMA: Language-Aligning Contrastive Learning with Meta-Actions for
Embodied Instruction Following [142.25438780561603]
本稿では,メタアクションの概念を導入し,言語命令とエージェントのアクション空間間の意味的ギャップを埋める。
強力なマルチモーダルトランスフォーマーベースラインと比較して、目に見えない環境での絶対的な成功率は4.5%に達する。
論文 参考訳(メタデータ) (2023-10-18T21:43:07Z) - Evaluating the Instruction-Following Robustness of Large Language Models
to Prompt Injection [70.28425745910711]
LLM(Large Language Models)は、命令追従に非常に熟練した言語である。
この能力は、迅速なインジェクション攻撃のリスクをもたらす。
このような攻撃に対する命令追従LDMの堅牢性を評価する。
論文 参考訳(メタデータ) (2023-08-17T06:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。