論文の概要: Right this way: Can VLMs Guide Us to See More to Answer Questions?
- arxiv url: http://arxiv.org/abs/2411.00394v1
- Date: Fri, 01 Nov 2024 06:43:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:51:10.700108
- Title: Right this way: Can VLMs Guide Us to See More to Answer Questions?
- Title(参考訳): 正しい方法:VLMs Guidesは質問にもっと答えられるか?
- Authors: Li Liu, Diji Yang, Sijia Zhong, Kalyana Suma Sree Tholeti, Lei Ding, Yi Zhang, Leilani H. Gilpin,
- Abstract要約: 質問応答シナリオでは、人間が利用可能な情報が十分かどうかを評価し、必要であれば追加情報を求める。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
- 参考スコア(独自算出の注目度): 11.693356269848517
- License:
- Abstract: In question-answering scenarios, humans can assess whether the available information is sufficient and seek additional information if necessary, rather than providing a forced answer. In contrast, Vision Language Models (VLMs) typically generate direct, one-shot responses without evaluating the sufficiency of the information. To investigate this gap, we identify a critical and challenging task in the Visual Question Answering (VQA) scenario: can VLMs indicate how to adjust an image when the visual information is insufficient to answer a question? This capability is especially valuable for assisting visually impaired individuals who often need guidance to capture images correctly. To evaluate this capability of current VLMs, we introduce a human-labeled dataset as a benchmark for this task. Additionally, we present an automated framework that generates synthetic training data by simulating ``where to know'' scenarios. Our empirical results show significant performance improvements in mainstream VLMs when fine-tuned with this synthetic data. This study demonstrates the potential to narrow the gap between information assessment and acquisition in VLMs, bringing their performance closer to humans.
- Abstract(参考訳): 質問に答えるシナリオでは、人間が利用可能な情報が十分かどうかを判断し、必要であれば追加情報を求めることができる。
対照的に、視覚言語モデル(VLM)は、情報の十分性を評価することなく、直接的かつ一発的な応答を生成するのが一般的である。
このギャップを調査するために、視覚質問回答(VQA)のシナリオでは、視覚情報が不十分な場合に、VLMが画像の調整方法を示すことができるのか?
この能力は、しばしば画像を正しくキャプチャするためのガイダンスを必要とする視覚障害者を支援するために特に有用である。
現在のVLMのこの能力を評価するために,このタスクのベンチマークとして人間ラベル付きデータセットを導入する。
さらに,<where to know'のシナリオをシミュレートすることで,合成トレーニングデータを生成する自動フレームワークを提案する。
実験により, この合成データを微調整した場合, 主流VLMの性能は著しく向上した。
本研究は,VLMにおける情報アセスメントと取得のギャップを狭める可能性を示し,その性能を人間に近づけるものである。
関連論文リスト
- Combining Knowledge Graph and LLMs for Enhanced Zero-shot Visual Question Answering [20.16172308719101]
ゼロショット視覚質問応答(ZS-VQA)は、トレーニングサンプルを提供することなく、視覚的な質問に答えることを目的としている。
ZS-VQAの既存の研究は、知識グラフや大規模言語モデル(LLM)を外部情報ソースとして活用することを提案した。
ゼロショット視覚質問応答のための知識グラフとLLMを組み合わせた新しい設計を提案する。
論文 参考訳(メタデータ) (2025-01-22T08:14:11Z) - FiVL: A Framework for Improved Vision-Language Alignment [10.184567639685321]
本稿では,LVLMを学習するための新しいデータセット構築手法であるFiVLを紹介する。
これらのデータセットは、LVLMのイメージコンテンツを実体的証拠として使用する能力のトレーニングと評価の両方に使用することができる。
提案するデータセットの有用性を実証するために,検証手法と説明可能性の応用とともに,ベースラインを向上する革新的なトレーニングタスクを導入する。
論文 参考訳(メタデータ) (2024-12-19T09:24:10Z) - Scaling Inference-Time Search with Vision Value Model for Improved Visual Comprehension [95.63899307791665]
視覚価値モデル(VisVM)は、VLM推論時間探索をガイドして、より良い視覚的理解で応答を生成する。
本稿では、VLM推論時間探索をガイドし、視覚的理解を向上した応答を生成するVisVMを提案する。
論文 参考訳(メタデータ) (2024-12-04T20:35:07Z) - AutoBench-V: Can Large Vision-Language Models Benchmark Themselves? [65.92331309449015]
本稿では,モデル能力の特定の側面に基づいてLVLMをベンチマークする,オンデマンドで評価を行う自動フレームワークであるAutoBench-Vを紹介する。
5つの要求されたユーザ入力に対して9つの人気のあるLVLMを広範囲に評価することにより、このフレームワークの有効性と信頼性を示す。
論文 参考訳(メタデータ) (2024-10-28T17:55:08Z) - Trust but Verify: Programmatic VLM Evaluation in the Wild [62.14071929143684]
プログラム型VLM評価(Programmatic VLM Evaluation、PROVE)は、オープンなクエリに対するVLM応答を評価するための新しいベンチマークパラダイムである。
我々は,PROVE上でのVLMの有効性-実効性トレードオフをベンチマークした結果,両者のバランスが良好であることは極めて少ないことがわかった。
論文 参考訳(メタデータ) (2024-10-17T01:19:18Z) - DriveLM: Driving with Graph Visual Question Answering [57.51930417790141]
本研究では,Webスケールデータに基づいて学習した視覚言語モデル(VLM)を,エンド・ツー・エンドの運転システムに統合する方法について検討する。
グラフVQAとエンドツーエンド駆動を併用するVLMベースラインアプローチ(DriveLM-Agent)を提案する。
論文 参考訳(メタデータ) (2023-12-21T18:59:12Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - SimVQA: Exploring Simulated Environments for Visual Question Answering [15.030013924109118]
視覚空間と言語空間を完全に制御するために,合成コンピュータ生成データを用いて検討する。
我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。
VQAモデルをよりドメイン不変にするために、トレーニング中にオブジェクトレベルの機能をランダムに切り替える機能スワッピング(F-SWAP)を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:44:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。