論文の概要: Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping
- arxiv url: http://arxiv.org/abs/2510.09741v1
- Date: Fri, 10 Oct 2025 17:57:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:29.606779
- Title: Constructive Distortion: Improving MLLMs with Attention-Guided Image Warping
- Title(参考訳): コンストラクティブ歪み:注意誘導画像ワープによるMLLMの改善
- Authors: Dwip Dalal, Gautam Vashishtha, Utkarsh Mishra, Jeonghwan Kim, Madhav Kanda, Hyeonjeong Ha, Svetlana Lazebnik, Heng Ji, Unnat Jain,
- Abstract要約: AttWarpは、少ない情報領域を圧縮しながら、クエリ関連コンテンツにより多くの解像度を割り当てる軽量な方法である。
テスト時にはMLLMのクロスモーダルアテンションを用いて入力画像のリチ線形ワープを行う。
この注意誘導ワープは、元の画像情報を全て保存するが、一様に再分割する。
- 参考スコア(独自算出の注目度): 43.14520214157644
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) often miss small details and spatial relations in cluttered scenes, leading to errors in fine-grained perceptual grounding. We introduce AttWarp, a lightweight method that allocates more resolution to query-relevant content while compressing less informative areas, all while preserving global context. At test time, the approach uses an MLLM's cross-modal attention to perform rectilinear warping of the input image, reallocating spatial resolution toward regions the model deems important, without changing model weights or architecture. This attention-guided warping preserves all original image information but redistributes it non-uniformly, so small objects and subtle relationships become easier for the same model to read while the global layout remains intact. Across five benchmarks (TextVQA, GQA, DocVQA, POPE, MMMU) and four MLLMs (LLaVA, Qwen-VL, InternVL, and InstructBLIP), AttWarp consistently improves accuracy, strengthens compositional reasoning, and reduces hallucinations, outperforming four competitive baselines that manipulate raw images at test time. Together, these results show that attention-guided warping prioritizes information relevant to the query while preserving context, and that the same MLLMs perform better when given such warped inputs.
- Abstract(参考訳): マルチモーダル大言語モデル(MLLM)は、散らばったシーンにおける小さな詳細や空間的関係を見逃し、きめ細かな知覚的接地における誤りを引き起こすことが多い。
我々はAtWarpという軽量な手法を紹介した。これは、クエリ関連コンテンツに対してより解像度を割り当てると同時に、より少ない情報領域を圧縮すると同時に、グローバルなコンテキストを保ちながら、より少ない情報領域を圧縮する。
テスト時にはMLLMのクロスモーダルアテンションを用いて入力画像の直線ワープを行い、モデルウェイトやアーキテクチャを変更することなく、モデルが重要とみなす領域に対して空間分解能を再配置する。
この注意誘導ワープは、元の画像情報を全て保存するが、非一様に再分割するので、大域的なレイアウトを保ちながら、同じモデルで小さなオブジェクトや微妙な関係を読みやすくする。
5つのベンチマーク(TextVQA, GQA, DocVQA, POPE, MMMU)と4つのMLLM(LLaVA, Qwen-VL, InternVL, InstructBLIP)にまたがって、AtWarpは精度を一貫して改善し、構成的推論を強化し、幻覚を低減し、テスト時に生画像を操作する4つの競争ベースラインを上回っている。
これらの結果から、注意誘導型ワープは、コンテキストを維持しながらクエリに関連する情報を優先し、そのようなワープ入力が与えられた場合、同じMLLMがより良く動作することを示す。
関連論文リスト
- Multimodal LLMs as Customized Reward Models for Text-to-Image Generation [60.164968941945645]
LLaVA-Rewardは、複数の視点でテキスト・ツー・イメージ(T2I)生成を自動評価する効率的な報酬モデルである。
LLaVA-Rewardはマルチモーダル大言語モデル(MLLM)の隠れ状態を直接利用する
LLaVA-Rewardは、テキストイメージアライメント、忠実さ/アーティファクト、安全性、全体的なランク付けの4つの観点でトレーニングします。
論文 参考訳(メタデータ) (2025-07-28T23:52:53Z) - Demystifying the Visual Quality Paradox in Multimodal Large Language Models [49.154146792279946]
最近のMLLM(Multimodal Large Language Models)は、視覚言語タスクのベンチマークに優れていますが、入力された視覚的品質がその応答をどのように形作るかについてはほとんど分かっていません。
本研究は,MLLMを先導する最初の体系的な研究と,視覚言語ベンチマークのスイートを対象とする。
モデル,タスク,さらには個々のインスタンスのパフォーマンスさえも,人間の知覚した忠実さから逸脱した画像を改善することができる。
論文 参考訳(メタデータ) (2025-06-18T17:14:07Z) - QLIP: A Dynamic Quadtree Vision Prior Enhances MLLM Performance Without Retraining [28.2730962800806]
既存のMLLMとシームレスに統合可能なCLIPビジョンエンコーダのドロップイン置換を提案する。
QLIPは、様々なモデルサイズにわたるLLaVA v1.5モデルの一般的な視覚的質問応答精度を改善する。
特にQLIPは、挑戦的な$Vast$ベンチマークの詳細な理解パフォーマンスを最大13.6%向上させる。
論文 参考訳(メタデータ) (2025-05-29T02:26:34Z) - Mitigating Object Hallucinations in Large Vision-Language Models via Attention Calibration [22.39558434131574]
LVLM(Large Vision-Language Models)は、視覚的コンテンツと実際に一致しない応答を生成する。
我々は、単一の意味のない入力画像からバイアスを推定する、トレーニング不要なソリューションUniform Attention (UAC)を導入する。
また、画像中のオブジェクトがどこにあっても一貫した出力を強制する、微調整ソリューションであるDynamic Attention (DAC)を導入します。
論文 参考訳(メタデータ) (2025-02-04T03:27:38Z) - Modality-Fair Preference Optimization for Trustworthy MLLM Alignment [22.093944381988496]
MLLM(Multimodal large language model)は、様々なタスクにおいて顕著な成功を収めている。
しかし、視覚的エンコーダとテキスト的エンコーダの別個のトレーニングは、しばしばモダリティの誤った調整をもたらす。
これらの不正確さは、実世界の応用におけるMLLMの信頼性を著しく損なう。
論文 参考訳(メタデータ) (2024-10-20T08:56:52Z) - Coarse Correspondences Boost Spatial-Temporal Reasoning in Multimodal Language Model [51.83436609094658]
本稿では,2次元画像を入力として,MLLMの時空間推論を強化する軽量な手法である粗対応を導入する。
本手法は,映像のフレーム間や異なる視点における主物体の対応性を特定するために,軽量な追跡モデルを用いている。
この単純なトレーニングフリーアプローチは、4つのベンチマークでGPT4-V/Oに一定の利得をもたらすことを実証する。
論文 参考訳(メタデータ) (2024-08-01T17:57:12Z) - Beyond LLaVA-HD: Diving into High-Resolution Large Multimodal Models [44.437693135170576]
我々は、高度化タスク付きLMM、局所画像圧縮、グローバルエキスパートの混合(SliME)を提案する。
我々は,異なるタスクにおいて異なるアダプタが優れているという観察に基づいて,アダプタの混合を用いてグローバルビューからコンテキスト情報を抽出する。
提案手法は,200万のトレーニングデータのみを用いて,様々なベンチマークにおいて先行的な性能を実現する。
論文 参考訳(メタデータ) (2024-06-12T17:59:49Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。