論文の概要: Taming a Retrieval Framework to Read Images in Humanlike Manner for Augmenting Generation of MLLMs
- arxiv url: http://arxiv.org/abs/2510.10426v1
- Date: Sun, 12 Oct 2025 03:22:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.934603
- Title: Taming a Retrieval Framework to Read Images in Humanlike Manner for Augmenting Generation of MLLMs
- Title(参考訳): MLLM生成用人型マンナにおける画像読取のための検索フレームワークの開発
- Authors: Suyang Xi, Chenxi Yang, Hong Ding, Yiqing Ni, Catherine C. Liu, Yunhao Liu, Chengqi Zhang,
- Abstract要約: マルチモーダルな大言語モデル(MLLM)は、細粒度の視覚的質問応答でしばしば失敗する。
HuLiRAG(Human-like Retrieval-Augmented Generation)は、マルチモーダル推論を「何」のカスケードとしてステージングするフレームワークである。
- 参考スコア(独自算出の注目度): 23.638717678491986
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Multimodal large language models (MLLMs) often fail in fine-grained visual question answering, producing hallucinations about object identities, positions, and relations because textual queries are not explicitly anchored to visual referents. Retrieval-augmented generation (RAG) alleviates some errors, but it fails to align with human-like processing at both the retrieval and augmentation levels. Specifically, it focuses only on global-level image information but lacks local detail and limits reasoning about fine-grained interactions. To overcome this limitation, we present Human-Like Retrieval-Augmented Generation (HuLiRAG), a framework that stages multimodal reasoning as a ``what--where--reweight'' cascade. Queries are first anchored to candidate referents via open-vocabulary detection (what), then spatially resolved with SAM-derived masks to recover fine-grained precision (where), and adaptively prioritized through the trade-off between local and global alignment (reweight). Mask-guided fine-tuning further injects spatial evidence into the generation process, transforming grounding from a passive bias into an explicit constraint on answer formulation. Extensive experiments demonstrate that this human-like cascade improves grounding fidelity and factual consistency while reducing hallucinations, advancing multimodal question answering toward trustworthy reasoning.
- Abstract(参考訳): MLLM(Multimodal large language model)は、視覚的質問応答においてしばしば失敗し、テキストクエリが視覚的参照に明示的に固定されていないため、オブジェクトの同一性、位置、関係に関する幻覚を生じさせる。
Retrieval-augmented Generation (RAG)は、いくつかのエラーを軽減するが、検索レベルと拡張レベルの両方において、人間のような処理と整合しない。
具体的には、グローバルレベルの画像情報のみに焦点を当てるが、局所的な詳細や微粒な相互作用の推論に制限はない。
この制限を克服するために,我々は,マルチモーダル推論を 'What-where-reweight'' カスケードとして行う,HuLiRAG(HuLiRAG)を提案する。
クエリはまず、オープンボキャブラリ検出(何)を介して候補の参照者に固定され、次にSAM由来のマスクで空間的に解決され、きめ細かい精度(場所)を回復し、局所的なアライメントとグローバルなアライメント(リウェイト)のトレードオフを通じて適応的に優先順位付けされる。
マスクガイドによる微調整により、空間的エビデンスを生成プロセスに注入し、受動的バイアスから答えの定式化に対する明示的な制約へと基底を変換する。
大規模な実験により、このヒトのようなカスケードは幻覚を減らし、信頼に値する推論に答えるマルチモーダルな質問を推し進めながら、根拠の忠実さと事実の整合性を改善することが示されている。
関連論文リスト
- Mitigating Hallucinations in Multimodal LLMs via Object-aware Preference Optimization [55.543583937522804]
MLLM(Multimodal Large Language Models)は、様々なタスクに対処するための統一インターフェースとして登場した。
多くのベンチマークで最先端の結果が誇示されているにもかかわらず、長年の問題はMLLMが幻覚を起こす傾向にある。
本稿では,幻覚の問題をアライメント問題として取り上げ,幻覚を伴わないコンテンツを生成するためのMLLMのステアリングを試みる。
論文 参考訳(メタデータ) (2025-08-27T18:02:04Z) - Prompt-Response Semantic Divergence Metrics for Faithfulness Hallucination and Misalignment Detection in Large Language Models [0.0]
本稿では, 忠実な幻覚を検出するための新しい枠組みであるセマンティック・ディバージェンス・メトリックス(SDM)を紹介する。
プロンプトと応答間のトピック共起のヒートマップは、ユーザとマシンの対話の定量的な2次元可視化と見なすことができる。
論文 参考訳(メタデータ) (2025-08-13T20:55:26Z) - PostAlign: Multimodal Grounding as a Corrective Lens for MLLMs [23.69973859198496]
MLLM(Multimodal Large Language Models)は、画像キャプションや視覚的質問応答などの視覚言語タスクに優れる。
主に、モデルが実際の視覚情報を活用するのを妨げている言語的先行性のために、急激な相関に対する過度な信頼に悩まされることが多い。
MMed-PostAlignは、視覚的理解能力を高め、MLLMの幻覚を軽減するために設計された、マルチモーダル後のアライメントフレームワークである。
論文 参考訳(メタデータ) (2025-06-22T05:11:46Z) - MIRAGE: Assessing Hallucination in Multimodal Reasoning Chains of MLLM [58.2298313720146]
マルチモーダル幻覚は多源性であり、様々な原因から生じる。
既存のベンチマークでは、知覚誘発幻覚と推論誘発幻覚を適切に区別することができない。
論文 参考訳(メタデータ) (2025-05-30T05:54:36Z) - Towards General Visual-Linguistic Face Forgery Detection(V2) [90.6600794602029]
顔操作技術は大きな進歩を遂げ、セキュリティと社会的信頼に深刻な課題を呈している。
近年の研究では、マルチモーダルモデルを活用することで、顔偽造検出の一般化と解釈可能性を高めることが示されている。
初期領域と型識別にフォージェリマスクを活用することで,正確なテキスト記述を生成する新しいアノテーションパイプラインである Face Forgery Text Generator (FFTG) を提案する。
論文 参考訳(メタデータ) (2025-02-28T04:15:36Z) - See, Say, and Segment: Teaching LMMs to Overcome False Premises [67.36381001664635]
この課題を解決するために,LMMのカスケードと共同学習手法を提案する。
得られたモデルでは、画像中に物体が存在するかどうかを検知し、その物体が存在しないかをユーザに「例」し、最終的に、対象物のマスクを出力することで「分類」を行う。
論文 参考訳(メタデータ) (2023-12-13T18:58:04Z) - Detecting and Preventing Hallucinations in Large Vision Language Models [4.7264116948935975]
M-HalDetectは、詳細な画像記述のための最初のマルチモーダル幻覚検出データセットである。
InstructBLIPから細粒度マルチモーダル報酬モデルを訓練し,その有効性を評価する。
LLaVAとmPLUG-OWLの幻覚をそれぞれ15%と57%低減する。
論文 参考訳(メタデータ) (2023-08-11T21:35:20Z) - MuRAG: Multimodal Retrieval-Augmented Generator for Open Question
Answering over Images and Text [58.655375327681774]
我々は,Multimodal Retrieval-Augmented Transformer (MuRAG)を提案する。
MuRAGは外部の非パラメトリックマルチモーダルメモリにアクセスして言語生成を増強する。
以上の結果から, MuRAGは最先端の精度を達成し, 既存のモデルよりも10~20%精度が高いことがわかった。
論文 参考訳(メタデータ) (2022-10-06T13:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。