Fugu-MT 論文翻訳(概要): LaViPlan : Language-Guided Visual Path Planning with RLVR

論文の概要: LaViPlan : Language-Guided Visual Path Planning with RLVR

arxiv url: http://arxiv.org/abs/2507.12911v4
Date: Wed, 20 Aug 2025 06:32:37 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-21 14:45:44.832656
Title: LaViPlan : Language-Guided Visual Path Planning with RLVR
Title（参考訳）: LaViPlan : RLVRを用いた言語誘導ビジュアルパス計画
Authors: Hayeon Oh,
Abstract要約: VLM(Vision-Language Models)は,高レベルなシーン理解とユーザ対応の意思決定を提供することによって,このようなシナリオを扱う上で有望であることを示す。既存のVLMは、言語に基づく推論とアクションレベルの計画に必要な低レベルの軌道との不一致を示すことが多い。本稿では,RLVR(Reinforcement Learning with Verifiable Rewards)を利用したLaViPlanを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Out-of-distribution (OOD) scenarios in autonomous driving pose critical challenges, as planners often fail to generalize beyond their training experience, leading to unsafe or unexpected behavior. Vision-Language Models (VLMs) have shown promise in handling such scenarios by providing high-level scene understanding and user-aligned decisions. However, existing VLMs often exhibit a misalignment between their language-based reasoning and the low-level trajectories required for action-level planning. In this paper, we propose LaViPlan, a framework that leverages Reinforcement Learning with Verifiable Rewards (RLVR) to fine-tune VLMs using planning-oriented metrics. Experimental results show that LaViPlan improves planning performance across both in-domain and out-of-domain datasets. While linguistic fidelity slightly decreases after RLVR-based fine-tuning, qualitative evaluation indicates that the outputs remain coherent. We also conduct ablation studies to analyze the effects of sampling ratio and reasoning guidance, highlighting how these design choices influence performance. These findings demonstrate the potential of RLVR as a post-training paradigm for aligning language-guided reasoning with action-level planning in autonomous driving.
Abstract（参考訳）: 自律運転におけるアウト・オブ・ディストリビューション(OOD)シナリオは、計画立案者がトレーニング経験以上の一般化に失敗し、安全でない、あるいは予期せぬ行動を引き起こすため、重大な課題となる。 VLM(Vision-Language Models)は,高レベルなシーン理解とユーザ対応の意思決定を提供することによって,このようなシナリオを扱う上で有望であることを示す。しかしながら、既存のVLMは、言語に基づく推論とアクションレベルの計画に必要な低レベルの軌道との不一致をしばしば示している。本稿では,RLVR(Reinforcement Learning with Verifiable Rewards)を応用したLaViPlanを提案する。実験結果から、LaViPlanはドメイン内とドメイン外の両方のデータセットのプランニング性能を改善していることがわかった。言語的忠実度はRLVRによる微調整後にわずかに低下するが、質的評価は出力が整合的であることを示している。また,サンプリング率と推論指導の効果を分析するためのアブレーション研究を行い,これらの設計選択が性能に与える影響を強調した。これらの知見は,RLVRが言語誘導推論と自律運転における行動レベルの計画とを整合させるための訓練後パラダイムとしての可能性を示している。

関連論文リスト

Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。 SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文参考訳（メタデータ） (2026-02-25T06:58:06Z)
ReViP: Reducing False Completion in Vision-Language-Action Models with Vision-Proprioception Rebalance [50.05984919728878]
本稿では、視覚的接地と摂動下での堅牢性を高めるために、視覚-受容器リバランスを備えた新しいVLAフレームワークReViPを提案する。具体的には、タスクステージオブザーバとして外部VLMを使用して、視覚的な観察からリアルタイムなタスク中心の視覚的手がかりを抽出する。本稿では,オブジェクトドロップのような制御された設定を持つLIBERO上に構築された最初のFalse-Completion Benchmark Suiteを提案する。
論文参考訳（メタデータ） (2026-01-23T11:31:07Z)
dVLM-AD: Enhance Diffusion Vision-Language-Model for Driving via Controllable Reasoning [69.36145467833498]
本稿では,拡散に基づく視覚言語モデルであるdVLM-ADを導入する。 nuScenes と WOD-E2E で評価すると、dVLM-AD はより一貫性のある推論・アクションのペアとなり、既存の駆動VLM/VLAシステムに匹敵する計画性能を達成する。
論文参考訳（メタデータ） (2025-12-04T05:05:41Z)
Learning Affordances at Inference-Time for Vision-Language-Action Models [50.93181349331096]
ロボット工学において、VLA(Vision-Language-Action Model)は複雑な制御タスクを解くための有望な道を提供する。本稿では,VLAの低レベルポリシーを過去の経験を条件とした高レベルVLMに接続するLITEN(Learning from Inference-Time Execution)を紹介する。提案手法は,低レベルVLAの計画の生成と実行を行う推論フェーズと,その結果を反映した評価フェーズとを反復する。
論文参考訳（メタデータ） (2025-10-22T16:43:29Z)
Vlaser: Vision-Language-Action Model with Synergistic Embodied Reasoning [124.48672228625821]
Vlaser - 相乗的具体的推論機能を備えたビジョン・ランゲージ・アクション・モデルを紹介する。 Vlaserは、様々な具体的推論ベンチマークで最先端のパフォーマンスを達成する。提案手法は,WidowXベンチマークの最先端結果と,Google Robotベンチマークの競合性能を実現する。
論文参考訳（メタデータ） (2025-10-13T05:51:22Z)
VLMPlanner: Integrating Visual Language Models with Motion Planning [18.633637485218802]
VLMPlannerは、学習ベースのリアルタイムプランナと生画像の推論が可能な視覚言語モデル(VLM)を組み合わせたハイブリッドフレームワークである。我々は,VLMが人間の運転動作を模倣できるコンテキスト適応推論ゲート機構を開発した。
論文参考訳（メタデータ） (2025-07-27T16:15:21Z)
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning [42.409352964719204]
Vision-Language-Action(VLA)モデルは、エンドツーエンドの自動運転を約束している。現在のVLAモデルは、物理的に実現不可能なアクション出力、複雑なモデル構造、あるいは不要に長い推論に苦しむ。本稿では,単一自己回帰生成モデル内での推論と行動生成を統一する新しいVLAモデルであるAutoVLAを提案する。
論文参考訳（メタデータ） (2025-06-16T17:58:50Z)
Natural Reflection Backdoor Attack on Vision Language Model for Autonomous Driving [55.96227460521096]
視覚言語モデル(VLM)は推論能力を高めるために自律運転システムに統合されている。本稿では,自律運転シナリオにおけるVLMシステムを対象とした自然反射型バックドアアタックを提案する。我々の発見は、自動運転の厳しいリアルタイム要求を生かした、新たなタイプの攻撃を発見しました。
論文参考訳（メタデータ） (2025-05-09T20:28:17Z)
VIPER: Visual Perception and Explainable Reasoning for Sequential Decision-Making [17.313485392764353]
VIPERはマルチモーダル命令ベースの計画のための新しいフレームワークである。 VLMベースの知覚とLLMベースの推論を統合する。その結果、VIPERは最先端のビジュアル・インストラクション・ベース・プランナーよりも優れていた。
論文参考訳（メタデータ） (2025-03-19T11:05:42Z)
Reflective Planning: Vision-Language Models for Multi-Stage Long-Horizon Robotic Manipulation [90.00687889213991]
複雑な長距離ロボット操作問題を解決するには、高度な高レベルの計画能力が必要である。インターネット上で事前訓練された視覚言語モデル(VLM)は、原則としてそのような問題に対処するためのフレームワークを提供する。本稿では,多段階操作タスクにおけるVLMの物理推論能力を高める新しいテストタイムフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T20:42:15Z)
CurricuVLM: Towards Safe Autonomous Driving via Personalized Safety-Critical Curriculum Learning with Vision-Language Models [1.6612510324510592]
CurricuVLMは、自律運転エージェントのためのパーソナライズされたカリキュラム学習を可能にする新しいフレームワークである。我々のアプローチでは、エージェントの動作を分析し、パフォーマンスの弱点を特定し、動的に調整されたトレーニングシナリオを生成するために、視覚言語モデル(VLM)を利用する。 CurricuVLMは、通常のシナリオと安全クリティカルなシナリオの両方において、最先端のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-21T00:42:40Z)
From Foresight to Forethought: VLM-In-the-Loop Policy Steering via Latent Alignment [11.799979691988902]
FOREWARNは、Vision Language Modelsのランタイムポリシーステアリングの可能性を解き放つ新しいフレームワークである。予見のために、我々は潜在世界モデルを利用して、多様な低レベルアクションプランが与えられた将来の潜在国家を想像する。例えば、VLMをこれらの予測潜在状態と整合させて、そのネイティブ表現におけるアクションの結果を推論する。
論文参考訳（メタデータ） (2025-02-03T21:11:02Z)
Are VLMs Ready for Autonomous Driving? An Empirical Study from the Reliability, Data, and Metric Perspectives [56.528835143531694]
視覚言語モデル(VLM)を評価するために設計されたベンチマークデータセットであるDriveBenchを紹介する。以上の結果から, VLMは視覚的接地ではなく, 一般的な知識やテキストの手がかりから得られる, もっともらしい応答をしばしば生み出すことが明らかとなった。本稿では,頑健な視覚的接地とマルチモーダル理解を優先する評価指標を提案する。
論文参考訳（メタデータ） (2025-01-07T18:59:55Z)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision [20.43366384946928]
教師としての視覚言語モデル(VLM)。 VLM-ADは、nuScenesデータセットの計画精度と衝突率の大幅な改善を実現している。
論文参考訳（メタデータ） (2024-12-19T01:53:36Z)
Evaluating Vision-Language Models as Evaluators in Path Planning [13.391755396500155]
大規模言語モデル(LLM)は、エンド・ツー・エンド・プランニングにおいて限定的な有効性を持つことが示されている。本稿では,複雑な経路計画シナリオにおける計画評価器としてVLMを評価する新しいベンチマークであるPathEvalを紹介する。分析の結果,これらのモデルがベンチマークにおいて重大な課題に直面していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-27T19:32:03Z)
Generating Out-Of-Distribution Scenarios Using Language Models [58.47597351184034]
大規模言語モデル(LLM)は自動運転において有望であることを示している。本稿では,多様なOF-Distribution(OOD)駆動シナリオを生成するためのフレームワークを提案する。我々は、広範囲なシミュレーションを通じてフレームワークを評価し、新しい"OOD-ness"メトリクスを導入する。
論文参考訳（メタデータ） (2024-11-25T16:38:17Z)
VSP: Assessing the dual challenges of perception and reasoning in spatial planning tasks for VLMs [102.36953558562436]
視覚言語モデル(VLM)は、エキサイティングな言語モデル(LM)のクラスである。 VLMの未調査能力の1つは、視覚空間計画である。本研究は,これらのモデルにおける空間計画能力を概ね評価するベンチマークを提案する。
論文参考訳（メタデータ） (2024-07-02T00:24:01Z)
VLP: Vision Language Planning for Autonomous Driving [52.640371249017335]
本稿では,言語理解と自律運転のギャップを埋めるために,言語モデルを利用したビジョン・ランゲージ・プランニングフレームワークを提案する。平均的なL2エラーと衝突率でそれぞれ35.9%と60.5%の削減を達成して、NuScenesデータセットの最先端のエンドツーエンドプランニング性能を達成している。
論文参考訳（メタデータ） (2024-01-10T23:00:40Z)
Empowering Autonomous Driving with Large Language Models: A Safety Perspective [82.90376711290808]
本稿では,Large Language Models (LLM) の自律運転システムへの統合について検討する。 LLMは行動計画におけるインテリジェントな意思決定者であり、文脈的安全学習のための安全検証シールドを備えている。適応型LLM条件モデル予測制御(MPC)と状態機械を用いたLLM対応対話型行動計画スキームという,シミュレーション環境における2つの重要な研究について述べる。
論文参考訳（メタデータ） (2023-11-28T03:13:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。