論文の概要: Bridging Structure and Language: Graph-Based Visual Reasoning for Autonomous Road Understanding
- arxiv url: http://arxiv.org/abs/2605.20942v1
- Date: Wed, 20 May 2026 09:28:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.598279
- Title: Bridging Structure and Language: Graph-Based Visual Reasoning for Autonomous Road Understanding
- Title(参考訳): ブリッジ構造と言語: 自律的道路理解のためのグラフベースのビジュアル推論
- Authors: Lena Wild, Katie Z Luo, Marco Pavone,
- Abstract要約: Combined Road Substrate (CRS) は、幾何学的道路構造とオープン語彙意味論を単一の表現で共同で実行可能にするグラフ基底フレームワークである。
CRSは、合成複雑で言語的に異なる質問応答対の自動生成を可能にする。
我々は、大規模でクローズドソースなモデルを含む最先端のVLMが、構造化された道路推論にかなり苦労していることを示します。
- 参考スコア(独自算出の注目度): 21.706539694985164
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Structured road understanding of lane geometry, topology, and traffic element relationships is foundational to safe autonomous driving. While vision-language models (VLMs) offer promising semantic flexibility, they lack the geometric and relational grounding required for precise road reasoning. Conversely, traditional modular systems, e.g., HD maps and topological road graphs, provide structural precision but remain semantically rigid. To bridge this gap, we introduce the Combined Road Substrate (CRS), a graph-grounded framework that makes geometric road structure and open-vocabulary semantics jointly executable in a single representation. CRS enables the automatic generation of compositionally complex and linguistically varied question-answer pairs via recursive graph queries, augmented with a "grounding for free" mechanism that ensures logical traceability to specific map elements, and procedurally extracted chain-of-thought supervision traces. We demonstrate that state-of-the-art VLMs - including large, closed-source models - struggle significantly with structured road reasoning, yet training a small 2- or 4-billion-parameter model with as few as 20 to 80 CRS-enriched scenes yields stable gains in compositional reasoning tasks of varying depth. Analysis of model behavior via verifiable reasoning traces reveals a systematic shift in failure modes: whereas baseline models fail at relational scene understanding, CRS-trained models reduce failures to attribute recognition, suggesting that the primary bottleneck in road understanding is not model scale, but the absence of structured supervision.
- Abstract(参考訳): レーン形状, トポロジ, 交通要素関係の構造化道路理解は, 安全な自動運転の基礎となる。
視覚言語モデル(VLM)は有望なセマンティックな柔軟性を提供するが、正確な道路推論に必要な幾何学的およびリレーショナルな基盤は欠如している。
逆に、HDマップやトポロジカル・ロードグラフのような伝統的なモジュラー系は、構造的精度を提供するが、意味論的に厳密なままである。
このギャップを埋めるために,我々は,幾何学的道路構造と開語彙意味論を1つの表現で共同実行可能にするグラフ基底フレームワークであるCombined Road Substrate (CRS)を導入する。
CRSは、再帰的なグラフクエリによる合成複雑で言語的に変化する問合せペアの自動生成を可能にし、特定の地図要素に対する論理的トレーサビリティを保証する「グラウンド・フォー・フリー」メカニズムを付加し、手続き的に抽出されたチェーン・オブ・シント・トラストを実現できる。
大規模でクローズドソースなモデルを含む最先端のVLMは、構造化された道路推論にかなり苦労するが、20~80のCRS強化シーンで2-または4-ビリオンパラメータの小さなモデルを訓練することで、様々な深さの合成推論タスクにおいて安定したゲインが得られることを示した。
ベースラインモデルはリレーショナルシーンの理解に失敗するのに対して、CRSで訓練されたモデルは属性認識に失敗を減らし、道路理解における主要なボトルネックはモデルスケールではなく、構造化された監督の欠如であることを示唆している。
関連論文リスト
- A Unified Framework for Structured Flow Modeling: From Continuous Fields to Data-Driven Representations [0.0]
力学系は、ソース/シンクの挙動、循環力学、トポロジーに制約された輸送を結合した構造的流れで記述することができる。
この研究は、ヘルムホルツ・ホッジ分解に基づく連続的な定式化を離散的およびデータ駆動的表現と結合することによって、そのようなシステムに対する統一的な視点を提供する。
論文 参考訳(メタデータ) (2026-05-18T11:52:09Z) - SGR3 Model: Scene Graph Retrieval-Reasoning Model in 3D [51.32219731589742]
3Dシーングラフは、オブジェクトエンティティとその関連性の構造化された表現を提供する。
3次元シーングラフ生成のための既存のアプローチは、通常、シーン再構成とグラフニューラルネットワーク(GNN)を組み合わせる。
本研究では,3次元のSGR3モデルを用いたScene Graph Retrieval-Reasoning Modelを提案する。
論文 参考訳(メタデータ) (2026-03-04T21:19:54Z) - StructAlign: Structured Cross-Modal Alignment for Continual Text-to-Video Retrieval [75.28673512571449]
Continual Text-to-Video Retrievalの重要な課題はフィーチャードリフトだ。
我々はCTVRのための構造化クロスモーダルアライメント手法であるStructAlignを提案する。
我々の手法は、常に最先端の連続検索手法より優れています。
論文 参考訳(メタデータ) (2026-01-28T13:34:44Z) - RoadSceneBench: A Lightweight Benchmark for Mid-Level Road Scene Understanding [8.824330786267184]
RoadSceneBenchは複雑な道路環境における視覚的推論の評価と進歩を目的としたベンチマークである。
大規模な認識とは異なり、RoadSceneBenchはリレーショナル理解と構造的一貫性を強調している。
本手法は様々な道路構成における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-11-27T13:57:31Z) - Cognitive Maps in Language Models: A Mechanistic Analysis of Spatial Planning [2.1115884707107715]
我々はグリッド環境における3つの空間学習パラダイムに基づいてGPT-2モデルを訓練する。
行動、表現、機械的分析を用いて、2つの基本的な異なる学習アルゴリズムを明らかにする。
論文 参考訳(メタデータ) (2025-11-17T13:46:19Z) - RelTopo: Multi-Level Relational Modeling for Driving Scene Topology Reasoning [74.58385332488227]
道路トポロジー推論は自動運転にとって重要であり、効率的なナビゲーションと交通規制の遵守を可能にする。
既存の手法は通常、レーン検出またはレーン・トゥ・レーン(L2L)のトポロジー推論(英語版)に重点を置いており、しばしばこれらのタスクを共同で最適化するためにレーン・トゥ・トラッフィック・エレメント(L2T)の関係をテキスト化している。
人間は自然に道路要素認識と接続性推論の文脈的関係を利用するので、リレーショナルモデリングは知覚と推論の両方に有益であると主張する。
論文 参考訳(メタデータ) (2025-06-16T14:40:28Z) - On the Diagram of Thought [20.805936414171892]
大規模言語モデル(LLM)は多くのタスクで優れているが、構造化された多段階の推論を必要とする複雑な問題に悩まされることが多い。
思考のダイアグラム(Diagram of Thought, DoT)は、1つのLCMがその推論のメンタルマップを構築し、ナビゲートすることを可能にする新しいフレームワークである。
論文 参考訳(メタデータ) (2024-09-16T07:01:41Z) - Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - Decentralized Vehicle Coordination: The Berkeley DeepDrive Drone Dataset and Consensus-Based Models [76.32775745488073]
本研究では,非構造環境における動作計画の研究を目的とした,新しいデータセットとモデリングフレームワークを提案する。
コンセンサスに基づくモデリング手法により、データセットで観測された優先順位の出現を効果的に説明できることを実証する。
論文 参考訳(メタデータ) (2022-09-19T05:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。