論文の概要: Logic-RAG: Augmenting Large Multimodal Models with Visual-Spatial Knowledge for Road Scene Understanding
- arxiv url: http://arxiv.org/abs/2503.12663v1
- Date: Sun, 16 Mar 2025 21:36:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:42.083629
- Title: Logic-RAG: Augmenting Large Multimodal Models with Visual-Spatial Knowledge for Road Scene Understanding
- Title(参考訳): Logic-RAG:道路シーン理解のための視覚空間知識による大規模マルチモーダルモデルの拡張
- Authors: Imran Kabir, Md Alimoor Reza, Syed Billah,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、ユーザーインタラクションのための自律運転システムに統合されつつある。
しかし、細粒度空間推論における制限は、システム解釈可能性やユーザ信頼に課題をもたらす。
本稿では,LMMの運転シナリオにおける空間的理解を改善する新フレームワークであるLogic-RAGを紹介する。
- 参考スコア(独自算出の注目度): 0.5571177307684636
- License:
- Abstract: Large multimodal models (LMMs) are increasingly integrated into autonomous driving systems for user interaction. However, their limitations in fine-grained spatial reasoning pose challenges for system interpretability and user trust. We introduce Logic-RAG, a novel Retrieval-Augmented Generation (RAG) framework that improves LMMs' spatial understanding in driving scenarios. Logic-RAG constructs a dynamic knowledge base (KB) about object-object relationships in first-order logic (FOL) using a perception module, a query-to-logic embedder, and a logical inference engine. We evaluated Logic-RAG on visual-spatial queries using both synthetic and real-world driving videos. When using popular LMMs (GPT-4V, Claude 3.5) as proxies for an autonomous driving system, these models achieved only 55% accuracy on synthetic driving scenes and under 75% on real-world driving scenes. Augmenting them with Logic-RAG increased their accuracies to over 80% and 90%, respectively. An ablation study showed that even without logical inference, the fact-based context constructed by Logic-RAG alone improved accuracy by 15%. Logic-RAG is extensible: it allows seamless replacement of individual components with improved versions and enables domain experts to compose new knowledge in both FOL and natural language. In sum, Logic-RAG addresses critical spatial reasoning deficiencies in LMMs for autonomous driving applications. Code and data are available at https://github.com/Imran2205/LogicRAG.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)は、ユーザーインタラクションのための自律運転システムに統合されつつある。
しかし、細粒度空間推論における制限は、システム解釈可能性やユーザ信頼に課題をもたらす。
本稿では,LMMの運転シナリオにおける空間的理解を改善する新フレームワークであるLogic-RAGを紹介する。
Logic-RAGは、知覚モジュール、問合せ-論理埋め込み器、論理推論エンジンを用いて、一階述語論理(FOL)におけるオブジェクト-オブジェクト関係に関する動的知識ベース(KB)を構築する。
ビジュアル空間問合せにおけるLogic-RAGの評価は,実世界の運転ビデオと合成ビデオの両方を用いて行った。
一般的なLMM(GPT-4V, Claude 3.5)を自律運転システムのプロキシとして使用する場合、これらのモデルは合成運転シーンでは55%、実世界の運転シーンでは75%の精度しか達成できなかった。
Logic-RAGでは, それぞれ80%以上, 90%以上に増大した。
論理的推論がなくても、Logic-RAGによって構築された事実に基づく文脈だけで精度は15%向上した。
Logic-RAGは拡張可能で、個々のコンポーネントを改良されたバージョンでシームレスに置き換えることができ、ドメインの専門家がFOLと自然言語の両方で新しい知識を構築することができる。
まとめると、Logic-RAGは自律運転用LMMにおける重要な空間推論の欠陥に対処する。
コードとデータはhttps://github.com/Imran2205/LogicRAGで入手できる。
関連論文リスト
- DMWM: Dual-Mind World Model with Long-Term Imagination [53.98633183204453]
本稿では、論理的推論を統合し、論理的一貫性で想像力を発揮できる新しいデュアルミンド世界モデル(DMWM)を提案する。
提案するフレームワークは,DMControlスイートからの長期計画を必要とするベンチマークタスクに基づいて評価される。
論文 参考訳(メタデータ) (2025-02-11T14:40:57Z) - SenseRAG: Constructing Environmental Knowledge Bases with Proactive Querying for LLM-Based Autonomous Driving [10.041702058108482]
本研究では,大規模言語モデル(LLM)の文脈推論機能を活用することにより,自律運転(AD)における状況認識の高度化の必要性に対処する。
厳密なラベルベースのアノテーションに依存する従来の認識システムとは異なり、リアルタイムのマルチモーダルセンサーデータを統一されたLLM対応の知識ベースに統合する。
実世界のV2Xデータセットを用いた実験結果は、知覚と予測性能の大幅な改善を示す。
論文 参考訳(メタデータ) (2025-01-07T05:15:46Z) - Large Language Models (LLMs) as Traffic Control Systems at Urban Intersections: A New Paradigm [5.233512464561313]
本研究では,Large Language Models (LLM) をトラヒックコントローラとして利用することで,トラヒック制御システムに新たなアプローチを提案する。
この研究は、論理的推論、シーン理解、意思決定能力を利用してスループットを最適化し、リアルタイムで交通状況に基づいたフィードバックを提供する。
論文 参考訳(メタデータ) (2024-11-16T19:23:52Z) - Open-RAG: Enhanced Retrieval-Augmented Reasoning with Open-Source Large Language Models [23.68266151581951]
Retrieval-Augmented Generation (RAG) は,Large Language Models (LLMs) の実際の精度を高めることが示されている。
既存の手法は、抽出された証拠を効果的に活用する際の限定的な推論能力に悩まされることが多い。
我々は,オープンソースLLMを用いたRAGにおける推論能力の向上を目的とした,新しいフレームワークであるOpen-RAGを紹介する。
論文 参考訳(メタデータ) (2024-10-02T17:37:18Z) - Embodied-RAG: General Non-parametric Embodied Memory for Retrieval and Generation [69.01029651113386]
Embodied-RAGは、非パラメトリックメモリシステムによるエンボディエージェントのモデルを強化するフレームワークである。
コアとなるEmbodied-RAGのメモリはセマンティックフォレストとして構成され、言語記述を様々なレベルで詳細に保存する。
Embodied-RAGがRAGをロボット領域に効果的にブリッジし、250以上の説明とナビゲーションクエリをうまく処理できることを実証する。
論文 参考訳(メタデータ) (2024-09-26T21:44:11Z) - Improving Complex Reasoning over Knowledge Graph with Logic-Aware Curriculum Tuning [89.89857766491475]
カリキュラムベースの論理認識型チューニングフレームワークであるLACTを提案する。
具体的には、任意の一階論理クエリをバイナリツリー分解によって拡張する。
広く使われているデータセットに対する実験では、LATは高度な手法よりも大幅に改善(平均+5.5% MRRスコア)し、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-05-02T18:12:08Z) - LLM4Drive: A Survey of Large Language Models for Autonomous Driving [62.10344445241105]
大規模言語モデル(LLM)は、文脈理解、論理的推論、回答生成などの能力を示した。
本稿では,自動走行のための大規模言語モデル (LLM4AD) に関する研究ラインを体系的にレビューする。
論文 参考訳(メタデータ) (2023-11-02T07:23:33Z) - DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model [84.29836263441136]
本研究は,マルチモーダル大言語モデル(MLLM)に基づく新しい解釈可能なエンドツーエンド自動運転システムであるDriveGPT4を紹介する。
DriveGPT4は、車両動作の解釈を促進し、関連する推論を提供し、ユーザによるさまざまな質問に効果的に対処する。
論文 参考訳(メタデータ) (2023-10-02T17:59:52Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z) - Lite-HDSeg: LiDAR Semantic Segmentation Using Lite Harmonic Dense
Convolutions [2.099922236065961]
完全3ドルのLiDAR点雲のセマンティックセグメンテーションのための,新しいリアルタイム畳み込みニューラルネットワークLite-HDSegを提案する。
提案手法は,リアルタイムに動作可能な意味セグメンテーション手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-03-16T04:54:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。