論文の概要: Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios
- arxiv url: http://arxiv.org/abs/2501.04671v2
- Date: Tue, 08 Apr 2025 17:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:27:10.836137
- Title: Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios
- Title(参考訳): 現実の運転シナリオにおける検索型インターリーブ型視覚連鎖
- Authors: Charles Corbière, Simon Roburin, Syrielle Montariol, Antoine Bosselut, Alexandre Alahi,
- Abstract要約: RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
- 参考スコア(独自算出の注目度): 69.00444996464662
- License:
- Abstract: While chain-of-thought (CoT) prompting improves reasoning in large language models, its effectiveness in vision-language models (VLMs) remains limited due to over-reliance on textual cues and memorized knowledge. To investigate the visual reasoning capabilities of VLMs in complex real-world scenarios, we introduce DrivingVQA, a visual question answering dataset derived from driving theory exams, which contains 3,931 multiple-choice problems with expert-written explanations and grounded entities relevant to the reasoning process. Leveraging this dataset, we propose RIV-CoT, a Retrieval-Based Interleaved Visual Chain-of-Thought method that enables VLMs to reason using visual crops corresponding to these relevant entities. Our experiments demonstrate that RIV-CoT improves answer accuracy by 3.1% and reasoning accuracy by 4.6% over vanilla CoT prompting. Furthermore, we demonstrate that our method effectively scales to the larger A-OKVQA reasoning dataset by leveraging automatically generated pseudo-labels, outperforming CoT prompting.
- Abstract(参考訳): チェーン・オブ・シント(CoT)は大きな言語モデルにおける推論を改善するが、その視覚言語モデル(VLM)の有効性は、テキストの手がかりや記憶された知識への過度な依存のために制限されている。
実世界の複雑なシナリオにおけるVLMの視覚的推論能力を調べるために,運転理論試験から得られた視覚的質問応答データセットであるDrivingVQAを紹介した。
このデータセットを活用することで、VLMがこれらの関連エンティティに対応する視覚的作物を推論できる検索型インターリーブド・ビジュアル・チェーン・オブ・ソート法であるRIV-CoTを提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
さらに,提案手法は,自動生成した擬似ラベルを利用して,より大規模なA-OKVQA推論データセットに効果的にスケール可能であることを示す。
関連論文リスト
- Imagine while Reasoning in Space: Multimodal Visualization-of-Thought [70.74453180101365]
大型言語モデル(LLM)とマルチモーダル大規模言語モデル(MLLM)の複雑な推論を強化するために、CoTプロンプト(Chain-of-Thought)が有効であることが証明された。
我々は新しい推論パラダイムであるMultimodal Visualization-of-Thought (MVoT)を提案する。
MLLMにおいて、推論トレースの画像視覚化を生成することにより、視覚的思考を可能にする。
論文 参考訳(メタデータ) (2025-01-13T18:23:57Z) - ProReason: Multi-Modal Proactive Reasoning with Decoupled Eyesight and Wisdom [42.03770972100087]
本稿ではProReasonという新しいビジュアル推論フレームワークを紹介する。
ProReasonは、マルチランプロアクティブな知覚と分離されたビジョン推論機能を備えている。
実験の結果、ProReasonは既存のマルチステップ推論フレームワークとパッシブピアメソッドの両方より優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-18T03:22:06Z) - Enhancing Advanced Visual Reasoning Ability of Large Language Models [20.32900494896848]
VL(Vision-Language)研究の最近の進歩は、複雑な視覚的推論のための新しいベンチマークを引き起こした。
我々はCVR-LLM(Complex Visual Reasoning Large Language Models)を提案する。
提案手法は,反復的自己修正ループを用いて,画像の詳細なコンテキスト認識記述に変換する。
また、LLMの文脈的理解と推論を強化するために、新しいマルチモーダル・インコンテキスト学習(ICL)手法を導入する。
論文 参考訳(メタデータ) (2024-09-21T02:10:19Z) - Zero-Shot Visual Reasoning by Vision-Language Models: Benchmarking and Analysis [6.704529554100875]
視覚言語モデル(VLM)は、実世界の視覚的質問応答ベンチマークにおいて、印象的なゼロショットと少数ショットのパフォーマンスを示した。
VLMの視覚的推論性能が世界的知識によるものなのか、それとも実際の視覚的推論能力によるものなのかは不明だ。
論文 参考訳(メタデータ) (2024-08-27T14:43:54Z) - Multimodal Causal Reasoning Benchmark: Challenging Vision Large Language Models to Infer Causal Links Between Siamese Images [19.923665989164387]
我々は,Multimodal Causal Reasoningベンチマーク,すなわち MuCR を提案し,大規模言語モデルに挑戦する。
具体的には,セマンティック因果関係と視覚的手がかりを組み込んだシアム画像を作成するための,プロンプト駆動画像合成手法を提案する。
我々の広範な実験により、現在最先端のVLLMは、我々が期待したようなマルチモーダル因果推論に熟練していないことが明らかとなった。
論文 参考訳(メタデータ) (2024-08-15T12:04:32Z) - Cantor: Inspiring Multimodal Chain-of-Thought of MLLM [83.6663322930814]
視覚的コンテキスト獲得と論理的推論の集約は、視覚的推論タスクに取り組む上で重要であると我々は主張する。
我々はCantorと呼ばれる革新的なマルチモーダルCoTフレームワークを提案し、その特徴は知覚決定アーキテクチャである。
提案手法の有効性を実証し,マルチモーダルCoT性能の大幅な向上を示した。
論文 参考訳(メタデータ) (2024-04-24T17:59:48Z) - How Far Are We from Intelligent Visual Deductive Reasoning? [41.4377002379162]
私たちは、より洗練されているが探求の少ない領域である、視覚に基づく誘惑的推論を掘り下げる。
現在のSOTA VLMでは、未公表の盲点が発見されている。
LLMに適用した場合に有効な標準的な戦略は、視覚的推論タスクによってもたらされる課題にシームレスに対応しないことがわかった。
論文 参考訳(メタデータ) (2024-03-07T18:35:54Z) - Good Questions Help Zero-Shot Image Reasoning [110.1671684828904]
質問駆動型視覚探索(QVix)は、大規模視覚言語モデル(LVLM)の探索能力を高める新しい促進戦略である。
QVixは、視覚的なシーンのより広い探索を可能にし、視覚的な質問応答や視覚的エンターテイメントといったタスクにおけるLVLMの推論精度と深さを改善している。
我々は,ScienceQAやきめ細かな視覚分類など,難易度の高いゼロショット視覚言語ベンチマークの評価を行い,QVixが既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2023-12-04T03:18:51Z) - Visual Chain of Thought: Bridging Logical Gaps with Multimodal
Infillings [61.04460792203266]
本稿では, 逐次データ内の論理的ギャップを埋めるために, 視覚言語による接地を促進させる, チェーン・オブ・シントを利用する新しい手法であるVCoTを紹介する。
本手法は,下流タスクの論理的ギャップを低減するために,一貫した情報と新しい情報を加える合成マルチモーダル埋め込みを生成するために視覚誘導を用いる。
論文 参考訳(メタデータ) (2023-05-03T17:58:29Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。