論文の概要: Action Emergence from Streaming Intent
- arxiv url: http://arxiv.org/abs/2605.12622v2
- Date: Thu, 14 May 2026 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 18:18:46.744676
- Title: Action Emergence from Streaming Intent
- Title(参考訳): ストリーミングインテントからのアクション創発
- Authors: Pengfei Jing, Victor Shea-Jay Huang, Hengtong Lu, Jifeng Dai, Yan Xie, Benjin Zhu,
- Abstract要約: 我々は、エンド・ツー・エンドの自動運転の目標能力としてアクションの出現を定式化する。
従来のパラダイムでは、アクションの出現はできません。
本稿では,運転意図を意味的にストリーム化するメカニズムとしてStreaming Intentを提案する。
- 参考スコア(独自算出の注目度): 32.90086331157582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We formalize action emergence as a target capability for end-to-end autonomous driving: the ability to generate physically feasible, semantically appropriate, and safety-compliant actions in arbitrary, long-tail traffic scenes through scene-conditioned reasoning rather than retrieval or interpolation of learned scene-action mappings. We show that previous paradigms cannot deliver action emergence: autoregressive trajectory decoders collapse the inherently multimodal future into a single averaged output, while diffusion and flow-matching generators express multimodality but are not steerable by reasoned intent. We propose Streaming Intent as a concrete way to approach action emergence: a mechanism that makes driving intent (i) semantically streamed through a continuous chain-of-thought that causally derives the intent from scene understanding, and (ii) temporally streamed across clips so that intent commitments remain coherent along the driving horizon. We realize Streaming Intent in a VLA model we call SI (Streaming Intent). SI autoregressively decodes a four-step chain-of-thought and emits an intent token; the decoded intent then drives classifier-free guidance (CFG) on a flow-matching action head, requiring only two denoising steps to generate the final trajectory. On the Waymo End-to-End benchmark, SI achieves competitive aggregate performance, with an RFS score of 7.96 on the validation set and 7.74 on the test set. Beyond aggregate metrics, the model demonstrates -- to our knowledge for the first time in a fully end-to-end VLA -- intent-faithful controllability: for a fixed scene, varying the intent class at inference yields qualitatively distinct yet consistently high-quality plans, arising purely from data-driven learning without any pre-built trajectory bank or hand-coded post-hoc selector.
- Abstract(参考訳): 我々は、学習されたシーンアクションマッピングの検索や補間ではなく、シーン条件の推論を通じて、任意のロングテール交通シーンにおいて、物理的に実現可能で、セマンティックに適切で、安全に準拠したアクションを生成する能力である、エンド・ツー・エンドの自動運転のターゲット能力としてアクションの出現を形式化する。
自己回帰軌道デコーダは、本質的にはマルチモーダルな未来を1つの平均出力に分解する一方、拡散およびフローマッチングジェネレータはマルチモーダルを表現するが、合理的な意図によっては評価できない。
行動発生への具体的なアプローチとしてのストリーミングインテントの提案--運転意図を規定するメカニズム
(i)シーン理解から意図を因果的に導き出す連続した思考の連鎖を通して意味的に流れ、
(II) 意図的コミットメントが運転地平線に沿って整合的に維持されるように、クリップを時間的にストリームする。
我々は、SI(Streaming Intent)と呼ぶVLAモデルでStreaming Intentを実現する。
SIは4ステップのチェーンを自己回帰的にデコードし、インテントトークンを出力し、デコードされたインテントはフローマッチングアクションヘッド上でクラシファイアフリーガイダンス(CFG)を駆動する。
Waymo End-to-Endベンチマークでは、SIは、検証セットで7.96、テストセットで7.74の総合的なパフォーマンスを達成している。
完全なエンドツーエンドのVLA(intent-faithful controllability) – 固定的なシーンでは、推論でインテントクラスを変更することで、質的に区別されるが一貫して高品質な計画が得られます。
関連論文リスト
- MindVLA-U1: VLA Beats VA with Unified Streaming Architecture for Autonomous Driving [54.57163800903507]
我々は、自動運転のための最初の統合型ストリーミング・ビジョン・ランゲージ・アクション・アーキテクチャであるMindVLA-U1を提案する。
統一されたVLMバックボーンは、1つの共有表現上の1つのフォワードパスで自動回帰言語トークンとフローマッチング連続アクショントラジェクトリを生成する。
ロングテールのWOD-E2Eベンチマークでは、MindVLA-U1が経験豊富な人間のドライバーを初めて上回った。
論文 参考訳(メタデータ) (2026-05-12T18:09:42Z) - From Imagined Futures to Executable Actions: Mixture of Latent Actions for Robot Manipulation [88.39072412680633]
将来の映像を実行可能な表現に変換する制御指向インタフェースであるMoLAを提案する。
我々は,シミュレーションベンチマークと実世界のロボット操作タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2026-05-12T14:15:16Z) - VECTOR-Drive: Tightly Coupled Vision-Language and Trajectory Expert Routing for End-to-End Autonomous Driving [10.83468363371212]
エンドツーエンドの自動運転は、交通シーンを理解し、運転意図を推測し、実行可能な動作計画を生成するモデルを必要とする。
本稿では,Qwen2.5-VL-3B上に構築された密結合型視覚言語アクションフレームワークであるVECTOR-DRIVEを提案する。
Bench2Driveでは、VECTOR-DRIVEは88.91のドライビングスコアを獲得し、代表的なエンドツーエンドとVLAベースのベースラインを上回っている。
論文 参考訳(メタデータ) (2026-05-09T09:34:50Z) - AutoMoT: A Unified Vision-Language-Action Model with Asynchronous Mixture-of-Transformers for End-to-End Autonomous Driving [36.82081211127408]
OURSは、単一の視覚言語アクション(VLA)モデルで推論とアクション生成を統合するエンドツーエンドのADフレームワークである。
OURSは最先端の手法と比較して競争性能が高いことを示す。
論文 参考訳(メタデータ) (2026-03-16T05:50:31Z) - LAD-Drive: Bridging Language and Trajectory with Action-Aware Diffusion Transformers [15.4994260281059]
低レベルの空間計画から高レベルの意図を遠ざける生成フレームワークであるLAD-Driveを紹介する。
LAD-Driveは確率的メタアクション分布を推測するためにアクションデコーダを使用し、通常1ホットの符号化で失われるニュアンスドインテントを保存する明示的な信念状態を確立する。
LangAutoベンチマークの大規模な評価は、LAD-Driveが最先端の結果を達成し、ドライビングスコアの競争ベースラインを最大59%上回っていることを示している。
論文 参考訳(メタデータ) (2026-03-02T16:21:42Z) - Unifying Language-Action Understanding and Generation for Autonomous Driving [25.23561391638388]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転において有望なパラダイムとして浮上している。
既存の手法には、言語命令とアクションアウトプットの永続的なミスアライメントと、典型的な自己回帰行動生成の非効率性という2つの重要な制限がある。
LinkVLAは、これらの課題に直接対処し、アライメントと効率の両方を強化する新しいアーキテクチャです。
論文 参考訳(メタデータ) (2026-03-02T04:41:10Z) - StreamAgent: Towards Anticipatory Agents for Streaming Video Understanding [52.55809460075286]
本稿では,今後のタスク関連情報を含むと思われる時間間隔と空間領域を予測できるStreamAgentを提案する。
我々は,重要な出来事の時間的進行を予測するために,予測エージェントに期待を促すことによって,質問の意味論と歴史的観察を統合する。
提案手法は,応答精度とリアルタイム効率において既存の手法よりも優れており,実世界のストリーミングシナリオの実用的価値を強調している。
論文 参考訳(メタデータ) (2025-08-03T18:15:42Z) - ReCogDrive: A Reinforced Cognitive Framework for End-to-End Autonomous Driving [49.07731497951963]
ReCogDriveは、エンドツーエンドの自動運転のための新しい強化認知フレームワークである。
我々は、人間のドライバーのシーケンシャルな認知過程を模倣する階層的なデータパイプラインを導入する。
次に、VLMの学習した運転先を拡散プランナーに注入することで、言語行動ミスマッチに対処する。
論文 参考訳(メタデータ) (2025-06-09T03:14:04Z) - Learning Salient Boundary Feature for Anchor-free Temporal Action
Localization [81.55295042558409]
時間的行動のローカライゼーションはビデオ理解において重要な課題である。
純粋にアンカーフリーな時間的定位法を初めて提案する。
このモデルには,(i)エンドツーエンドのトレーニング可能な基本予測器,(ii)サリエンシベースのリファインメントモジュール,(iii)いくつかの一貫性制約が含まれている。
論文 参考訳(メタデータ) (2021-03-24T12:28:32Z) - IntentNet: Learning to Predict Intention from Raw Sensor Data [86.74403297781039]
本論文では,LiDARセンサが生成する3次元点群と,環境の動的なマップの両方を利用するワンステージ検出器と予測器を開発した。
当社のマルチタスクモデルは、それぞれの別々のモジュールよりも高い精度を実現し、計算を節約します。
論文 参考訳(メタデータ) (2021-01-20T00:31:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。