論文の概要: VLA-R: Vision-Language Action Retrieval toward Open-World End-to-End Autonomous Driving
- arxiv url: http://arxiv.org/abs/2511.12405v1
- Date: Sun, 16 Nov 2025 00:55:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.022948
- Title: VLA-R: Vision-Language Action Retrieval toward Open-World End-to-End Autonomous Driving
- Title(参考訳): VLA-R:オープンワールドエンド・ツー・エンド自動運転に向けたビジョンランゲージ行動検索
- Authors: Hyunki Seong, Seongwoo Moon, Hojin Ahn, Jehun Kang, David Hyunchul Shim,
- Abstract要約: 本稿では、オープンワールドのエンドツーエンド自動運転フレームワークであるVision-Language Action Retrieval(VLA-R)を紹介する。
オープンワールドの検出とセグメンテーションにフリーズした視覚言語モデルを用いて,マルチスケール,プロンプト誘導,解釈可能な知覚特徴を得る。
移動可能な運転動作を学習するために,視覚反応型コントラスト学習方式を導入する。
- 参考スコア(独自算出の注目度): 6.785438664749581
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Exploring open-world situations in an end-to-end manner is a promising yet challenging task due to the need for strong generalization capabilities. In particular, end-to-end autonomous driving in unstructured outdoor environments often encounters conditions that were unfamiliar during training. In this work, we present Vision-Language Action Retrieval (VLA-R), an open-world end-to-end autonomous driving (OW-E2EAD) framework that integrates open-world perception with a novel vision-action retrieval paradigm. We leverage a frozen vision-language model for open-world detection and segmentation to obtain multi-scale, prompt-guided, and interpretable perception features without domain-specific tuning. A Q-Former bottleneck aggregates fine-grained visual representations with language-aligned visual features, bridging perception and action domains. To learn transferable driving behaviors, we introduce a vision-action contrastive learning scheme that aligns vision-language and action embeddings for effective open-world reasoning and action retrieval. Our experiments on a real-world robotic platform demonstrate strong generalization and exploratory performance in unstructured, unseen environments, even with limited data. Demo videos are provided in the supplementary material.
- Abstract(参考訳): エンド・ツー・エンドの方法でオープンワールドの状況を探索することは、強力な一般化機能を必要とするため、有望だが挑戦的な課題である。
特に、非構造屋外環境でのエンドツーエンドの自動運転は、トレーニング中に馴染みのない状況に遭遇することが多い。
本稿では,オープンワールドのエンド・ツー・エンド自動運転(OW-E2EAD)フレームワークであるVision-Language Action Retrieval(VLA-R)について紹介する。
オープンワールド検出とセグメンテーションのための凍結視覚言語モデルを用いて,ドメイン固有チューニングを伴わないマルチスケール,プロンプト誘導,解釈可能な知覚特徴を得る。
Q-Formerのボトルネックは、粒度の細かい視覚表現を言語に沿った視覚特徴、ブリッジング知覚、アクションドメインに集約する。
移動可能な運転動作を学習するために,視覚言語と行動埋め込みを協調させて,効果的なオープンワールド推論と行動検索を行う視覚行動コントラスト学習手法を導入する。
実世界のロボットプラットフォームに対する我々の実験は、限られたデータであっても、構造化されていない、目に見えない環境での強力な一般化と探索性能を示している。
デモビデオは補足資料で提供される。
関連論文リスト
- OpenFrontier: General Navigation with Visual-Language Grounded Frontiers [54.661157616245966]
オープンワールドナビゲーションでは、複雑な日常環境においてロボットが意思決定を行う必要がある。
近年の視覚-言語ナビゲーション(VLN)と視覚-言語-アクション(VLA)モデルは、自然言語で条件付けられたエンドツーエンドのポリシーを実現する。
多様な視覚をシームレスに統合するトレーニングフリーナビゲーションフレームワークであるOpenFrontierを提案する。
論文 参考訳(メタデータ) (2026-03-05T17:02:22Z) - Look, Zoom, Understand: The Robotic Eyeball for Embodied Perception [8.542874528320004]
既存のビジョンモデルと固定RGB-Dカメラシステムは、細かな詳細取得で広域範囲を調整できない。
本研究では,アクティブな視覚知覚のためのロボット眼球であるEyeVLAを提案する。
論文 参考訳(メタデータ) (2025-11-19T09:42:08Z) - LMAD: Integrated End-to-End Vision-Language Model for Explainable Autonomous Driving [58.535516533697425]
視覚言語モデル(VLM)はシーン理解において有望な能力を示している。
本稿では,自律運転に適した視覚言語フレームワークLMADを提案する。
本フレームワークは,VLMに包括的シーン理解とタスク特化構造を組み込むことにより,最新のエンド・ツー・エンド駆動パラダイムをエミュレートする。
論文 参考訳(メタデータ) (2025-08-17T15:42:54Z) - Imagine, Verify, Execute: Memory-guided Agentic Exploration with Vision-Language Models [81.08295968057453]
本稿では,人間の好奇心に触発されたエージェント探索フレームワークIVEを紹介する。
シミュレーションおよび実世界のテーブルトップ環境におけるIVEの評価を行った。
論文 参考訳(メタデータ) (2025-05-12T17:59:11Z) - OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model [24.90085777003393]
エンド・ツー・エンドの自動運転用に設計されたビジョン・ランゲージ・アクション(VLA)モデルであるOpenDriveVLAを提案する。
OpenDriveVLAは、オープンソースのトレーニング済みの大型ビジョンランゲージモデル(VLM)上に構築され、信頼性の高い駆動アクションを生成する。
論文 参考訳(メタデータ) (2025-03-30T14:45:54Z) - InsightDrive: Insight Scene Representation for End-to-End Autonomous Driving [3.8737986316149775]
我々はInsightDriveと呼ばれる新しいエンドツーエンドの自動運転手法を提案する。
言語誘導されたシーン表現によって知覚を整理する。
実験では、InsightDriveはエンドツーエンドの自動運転において最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-03-17T10:52:32Z) - Hawk: Learning to Understand Open-World Video Anomalies [76.9631436818573]
ビデオ異常検出(VAD)システムは、障害を自律的に監視し、識別し、手作業や関連するコストを削減できる。
我々は,インタラクティブな大規模ビジュアル言語モデル(VLM)を利用して,ビデオの異常を正確に解釈する新しいフレームワークであるHawkを紹介する。
言語記述による8000以上の異常ビデオを注釈付けし、さまざまなオープンワールドシナリオでの効果的なトレーニングを可能にしました。
論文 参考訳(メタデータ) (2024-05-27T07:08:58Z) - MOKA: Open-World Robotic Manipulation through Mark-Based Visual Prompting [97.52388851329667]
我々は,自由形式の言語命令で指定されたロボット操作タスクを解決するために,マーキングオープンワールドキーポイントアフォード(Moka)を導入する。
我々のアプローチの中心は、VLMの観測画像と物理世界におけるロボットの行動に関する予測を橋渡しする、コンパクトな点ベースの可測性表現である。
ツールの使用,変形可能な身体操作,オブジェクト再構成など,さまざまなテーブルトップ操作タスクにおけるMokaの性能評価と解析を行った。
論文 参考訳(メタデータ) (2024-03-05T18:08:45Z) - Training-Free Action Recognition and Goal Inference with Dynamic Frame Selection [51.004020874336284]
VidTFSはトレーニング不要でオープンなビデオ目標とアクション推論フレームワークである。
提案するフレーム選択モジュールは,フレームワークの性能を大幅に向上させることを示す。
提案したVidTFSの性能を,広範に使用されている4つのビデオデータセット上で検証する。
論文 参考訳(メタデータ) (2024-01-23T03:45:05Z) - Drive Anywhere: Generalizable End-to-end Autonomous Driving with
Multi-modal Foundation Models [114.69732301904419]
本稿では、画像とテキストで検索可能な表現から、運転決定を提供することができる、エンドツーエンドのオープンセット(環境/シーン)自律運転を適用するアプローチを提案する。
当社のアプローチでは, 多様なテストにおいて非並列的な結果を示すと同時に, アウト・オブ・ディストリビューションの状況において, はるかに高いロバスト性を実現している。
論文 参考訳(メタデータ) (2023-10-26T17:56:35Z) - Contrastive Learning for Enhancing Robust Scene Transfer in Vision-based
Agile Flight [21.728935597793473]
本研究では、ゼロショットシーン転送と実世界展開を可能にする視覚表現学習のための適応型マルチペアコントラスト学習戦略を提案する。
私たちは、アジャイルでビジョンベースの4倍体飛行のタスクに対して、私たちのアプローチのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2023-09-18T15:25:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。