論文の概要: GroundSight: Augmenting Vision-Language Models with Grounding Information and De-hallucination
- arxiv url: http://arxiv.org/abs/2509.25669v1
- Date: Tue, 30 Sep 2025 02:09:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.9816
- Title: GroundSight: Augmenting Vision-Language Models with Grounding Information and De-hallucination
- Title(参考訳): GroundSight: 接地情報と脱ハロシン化による視覚言語モデルの拡張
- Authors: Xinxi Chen, Tianyang Chen, Lijia Hong,
- Abstract要約: 検索型拡張生成(RAG)を用いた視覚質問応答(VQA)の改善手法を提案する。
画像全体に基づいて情報を取得するのではなく、我々のアプローチは問題に最も関連するオブジェクトのまわりにバウンディングボックスを生成する。
これにより背景雑音が低減され、視覚的およびテキスト的手がかりの整合性が向上し、幻覚の緩和に役立つ。
- 参考スコア(独自算出の注目度): 2.1517306866297674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a method to improve Visual Question Answering (VQA) with Retrieval-Augmented Generation (RAG) by introducing text-grounded object localization. Rather than retrieving information based on the entire image, our approach enables the model to generate a bounding box around the object most relevant to the question, allowing for targeted image cropping and focused retrieval. This reduces background noise, improves alignment between visual and textual cues, and helps mitigate hallucinations. Our RAG method enhances context-aware VQA responses increased the accuracy from 22.19% to 25.64%, with an absolute increase of 3.45 percentage points, compared to the baseline Llama-3.2-Vision-11B agent. We also proposed a de-hallucination method based on question type which can effectively reduce the hallucination rate from 65.79% to 13.88% and improves the truthfulness score.
- Abstract(参考訳): 本稿では,テキスト・グラウンド・オブジェクト・ローカライゼーションを導入することで,検索型拡張生成(RAG)を用いた視覚質問応答(VQA)の改善手法を提案する。
本手法では,画像全体に基づいて情報を取得するのではなく,問題に最も関連性の高い物体のまわりにバウンディングボックスを生成し,対象画像の抽出と集中検索を可能にする。
これにより背景雑音が低減され、視覚的およびテキスト的手がかりの整合性が向上し、幻覚の緩和に役立つ。
RAG法は,Llama-3.2-Vision-11B法と比較して,22.19%から25.64%の精度で3.45ポイントの精度向上を実現した。
また,幻覚率を65.79%から13.88%に効果的に低減し,真偽のスコアを向上する質問タイプに基づく脱幻覚法を提案した。
関連論文リスト
- Mitigating Low-Level Visual Hallucinations Requires Self-Awareness: Database, Model and Training Strategy [53.07517728420411]
低レベル視覚タスクにおける幻覚に焦点を当てた最初のインストラクションデータベースを提案する。
低レベル視覚タスクにおけるモデルの知覚と理解能力を向上させるための自己認識障害除去(SAFEQA)モデルを提案する。
低レベルの視覚課題に対する総合的な実験を行い、提案手法がこれらの課題におけるモデルの自己認識を著しく向上し、幻覚を低減させることを示す。
論文 参考訳(メタデータ) (2025-03-26T16:05:01Z) - Feedback-Driven Vision-Language Alignment with Minimal Human Supervision [11.012355590697064]
SVP(Sampling-based Visual Projection)は,手作業によるテキストイメージペアや嗜好アノテーションに頼ることなく,視覚言語アライメントを向上させる新しいフレームワークである。
我々は6つの重要な領域(キャプション、参照、視覚的質問応答、マルチタスク、幻覚制御、オブジェクトリコール)にまたがるアプローチを評価した。
その結果, キャプションタスクの平均改善率は14%, オブジェクトリコールの最大12%, 幻覚の減少など, 大幅な改善が見られた。
論文 参考訳(メタデータ) (2025-01-08T15:32:12Z) - Multi-Modal Hallucination Control by Visual Information Grounding [121.6983694815504]
本稿では,VLM(Generative Vision-Language Models)が,入力画像に常に接するとは限らない,可聴性のあるテキスト応答を生成する傾向があることを示す。
即時増幅のための新しいサンプリング手法であるM3ID(Multi-Modal Mutual-Information Decoding)を導入する。
M3IDは、言語に対する参照画像の影響を増幅し、視覚的プロンプトと高い相互情報を持つトークンの生成を優先する。
論文 参考訳(メタデータ) (2024-03-20T22:05:18Z) - Improved Visual Grounding through Self-Consistent Explanations [58.51131933246332]
本稿では,大規模な言語モデルを用いて,既存のテキスト画像データセットをパラフレーズで拡張するための戦略を提案する。
SelfEQは、自己整合性を促進するパラフレーズの視覚的説明地図に関する弱教師付き戦略である。
論文 参考訳(メタデータ) (2023-12-07T18:59:22Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。