論文の概要: Describe-Then-Act: Proactive Agent Steering via Distilled Language-Action World Models
- arxiv url: http://arxiv.org/abs/2603.23149v1
- Date: Tue, 24 Mar 2026 12:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.481299
- Title: Describe-Then-Act: Proactive Agent Steering via Distilled Language-Action World Models
- Title(参考訳): Describe-Then-Act:Distilled Language-Action World Modelによるプロアクティブエージェントステアリング
- Authors: Massimiliano Pappa, Luca Romani, Valentino Sacco, Alessio Palma, Stéphane Lathuilière, Fabio Galasso, Xavier Alameda-Pineda, Indro Spinelli,
- Abstract要約: 我々は、訓練された政策の潜伏状態と計画された行動が組み合わさって、すでに行動結果を予測する十分な情報を符号化していることを示す。
DILLOは、"simulate-then-act"から"describe-then-act"にパラダイムをシフトする高速なステアリング層である。
- 参考スコア(独自算出の注目度): 31.764922248007935
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deploying safety-critical agents requires anticipating the consequences of actions before they are executed. While world models offer a paradigm for this proactive foresight, current approaches relying on visual simulation incur prohibitive latencies, often exceeding several seconds per step. In this work, we challenge the assumption that visual processing is necessary for failure prevention. We show that a trained policy's latent state, combined with its planned actions, already encodes sufficient information to anticipate action outcomes, making visual simulation redundant for failure prevention. To this end, we introduce DILLO (DIstiLLed Language-ActiOn World Model), a fast steering layer that shifts the paradigm from "simulate-then-act" to "describe-then-act." DILLO is trained via cross-modal distillation, where a privileged Vision Language Model teacher annotates offline trajectories and a latent-conditioned Large Language Model student learns to predict semantic outcomes. This creates a text-only inference path, bypassing heavy visual generation entirely, achieving a 14x speedup over baselines. Experiments on MetaWorld and LIBERO demonstrate that DILLO produces high-fidelity descriptions of the next state and is able to steer the policy, improving episode success rate by up to 15 pp and 9.3 pp on average across tasks.
- Abstract(参考訳): 安全クリティカルなエージェントをデプロイするには、実行前にアクションの結果を予測する必要がある。
世界モデルは、この前向きな視点のパラダイムを提供するが、現在のアプローチは、視覚シミュレーションによって禁止された遅延を発生させ、しばしば1ステップあたり数秒を超える。
本研究では,視覚処理が障害防止に不可欠であるという仮定に挑戦する。
訓練された政策の潜伏状態と計画された行動が組み合わさって、すでに行動結果を予測する十分な情報をエンコードしており、視覚シミュレーションを失敗防止のために冗長にしていることを示す。
この目的のために我々は,DILLO (DIstiLLed Language-ActiOn World Model) を導入し,そのパラダイムを "simulate-then-act" から "describe-then-act" に変更した。
DILLOはクロスモーダル蒸留によって訓練され、特権を持つビジョン言語モデル教師がオフラインの軌跡に注釈を付け、潜在条件の大規模言語モデル学生が意味的な結果を予測することを学ぶ。
これによりテキストのみの推論パスが生成され、重い視覚生成を完全に回避し、ベースラインの14倍のスピードアップを達成する。
MetaWorld と LIBERO の実験では、DILLO は次の状態の高忠実な記述を生成でき、各タスクの平均で15 pp と 9.3 pp のエピソード成功率を向上させることができることを示した。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - Concept-Based Dictionary Learning for Inference-Time Safety in Vision Language Action Models [30.400796921799778]
視覚言語行動(VLA)モデルは、マルチモーダル命令を実行可能な動作に変換することで知覚行動ループを閉じる。
推論時間安全制御のための概念に基づく辞書学習フレームワークを提案する。
Libero-Harm、BadRobot、RoboPair、IS-Benchの実験により、我々のアプローチが最先端の防衛性能を達成することを示す。
論文 参考訳(メタデータ) (2026-02-02T09:06:43Z) - CLAP: Contrastive Latent Action Pretraining for Learning Vision-Language-Action Models from Human Videos [73.51386721543135]
本稿では,映像から視覚的潜伏空間をロボット軌道から受容的潜伏空間に整列させるフレームワークであるContrastive Latent Action Pretraining (CLAP)を提案する。
CLAPは、ビデオの遷移を量子化され、物理的に実行可能なコードブックにマッピングする。
本稿では,命令追従やオブジェクトの一般化に優れた自己回帰モデルであるCLAP-NTPと,高頻度かつ高精度な操作のために設計されたRectified FlowベースのポリシーであるCLAP-RFの両方を提供する二重形式VLAフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-07T16:26:33Z) - Do What You Say: Steering Vision-Language-Action Models via Runtime Reasoning-Action Alignment Verification [17.948161564138033]
Reasoning Vision Language Action (VLA)モデルは、低レベルアクションの前にステップバイステップのテキストプランを生成することで、ロボットによる命令追従を改善する。
しかし、正しいテキストプランであっても、生成したアクションは計画の意図した結果、特にアウト・オブ・ディストリビューションのシナリオを見逃す可能性がある。
我々は、この現象をCoT忠実性の欠如として定式化し、推論・アクションアライメントのためのトレーニング不要な実行時ポリシーステアリング手法を導入する。
論文 参考訳(メタデータ) (2025-10-18T00:38:45Z) - Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [59.69563889773648]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。
いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。
本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T14:20:33Z) - VLM Agents Generate Their Own Memories: Distilling Experience into Embodied Programs of Thought [41.72701516732208]
大規模生成言語と視覚言語モデル(LLMとVLM)は、数ショットの学習では優れているが、高品質な実演を必要とする。
In-Context Abstraction Learning (ICAL) を提案し、VLMエージェントが最適な軌道を高品質な訓練データに変換することを可能にする。
論文 参考訳(メタデータ) (2024-06-20T17:45:02Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - POUF: Prompt-oriented unsupervised fine-tuning for large pre-trained
models [62.23255433487586]
モデルに微調整を施したり、ラベルのないターゲットデータにプロンプトを施したりするための教師なしの微調整フレームワークを提案する。
本稿では,プロンプトとターゲットデータから抽出した離散分布を整列させて,言語拡張視覚とマスキング言語モデルの両方に適用する方法を示す。
論文 参考訳(メタデータ) (2023-04-29T22:05:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。