論文の概要: Mitigating Cross-Image Information Leakage in LVLMs for Multi-Image Tasks
- arxiv url: http://arxiv.org/abs/2508.13744v1
- Date: Tue, 19 Aug 2025 11:31:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 15:36:31.901422
- Title: Mitigating Cross-Image Information Leakage in LVLMs for Multi-Image Tasks
- Title(参考訳): マルチイメージタスクのためのLVLMにおけるクロスイメージ情報漏洩の軽減
- Authors: Yeji Park, Minyoung Lee, Sanghyuk Chun, Junsuk Choe,
- Abstract要約: 本稿では,推論中のクロスイメージ情報漏洩を緩和する,トレーニングフリーでアーキテクチャに依存しないデコーディング戦略を提案する。
FOCUSは4つのマルチイメージベンチマークと多様なLVLMファミリーのパフォーマンスを継続的に改善する。
このことは、FOCUSが、追加のトレーニングやアーキテクチャの変更なしに、マルチイメージ推論を強化する汎用的で実用的なソリューションを提供することを示している。
- 参考スコア(独自算出の注目度): 22.873506907783153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) demonstrate strong performance on single-image tasks. However, we observe that their performance degrades significantly when handling multi-image inputs. This occurs because visual cues from different images become entangled in the model's output. We refer to this phenomenon as cross-image information leakage. To address this issue, we propose FOCUS, a training-free and architecture-agnostic decoding strategy that mitigates cross-image information leakage during inference. FOCUS sequentially masks all but one image with random noise, guiding the model to focus on the single clean image. We repeat this process across all target images to obtain logits under partially masked contexts. These logits are aggregated and then contrastively refined using a noise-only reference input, which suppresses the leakage and yields more accurate outputs. FOCUS consistently improves performance across four multi-image benchmarks and diverse LVLM families. This demonstrates that FOCUS offers a general and practical solution for enhancing multi-image reasoning without additional training or architectural modifications.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、シングルイメージタスクにおいて強力なパフォーマンスを示す。
しかし,マルチイメージ入力を扱う場合,その性能は著しく低下する。
これは、異なる画像からの視覚的手がかりがモデルの出力に絡み合うためである。
この現象をクロスイメージ情報漏洩と呼ぶ。
この問題に対処するため,トレーニング不要でアーキテクチャに依存しないデコード戦略であるFOCUSを提案し,推論時のクロスイメージ情報漏洩を軽減する。
FOCUSは、ランダムなノイズで1つの画像以外を順次マスクし、モデルに1つのクリーンなイメージに集中させる。
我々はこのプロセスを全てのターゲット画像に繰り返し、部分的にマスキングされたコンテキスト下でロジットを取得する。
これらのロジットは、ノイズのみの参照入力を使用して集約され、コントラスト的に洗練され、リークを抑え、より正確な出力を得る。
FOCUSは4つのマルチイメージベンチマークと多様なLVLMファミリーのパフォーマンスを継続的に改善する。
このことは、FOCUSが、追加のトレーニングやアーキテクチャの変更なしに、マルチイメージ推論を強化する汎用的で実用的なソリューションを提供することを示している。
関連論文リスト
- Learning Only with Images: Visual Reinforcement Learning with Reasoning, Rendering, and Visual Feedback [33.127607245587576]
本稿では,MLLMが生画像のみから複雑な視覚的推論を学習できるようにするフレームワークを提案する。
我々は、この相対的容易さが強化学習による最適化に理想的な報酬信号を提供することを示した。
RRVF訓練モデルは既存のMLLMを上回り、微調整ベースラインを監督するだけでなく、より優れた一般化を示す。
論文 参考訳(メタデータ) (2025-07-28T12:21:19Z) - Language Integration in Fine-Tuning Multimodal Large Language Models for Image-Based Regression [2.9998889086656586]
本稿では,トランスフォーマーベース分類(RvTC)が語彙制約型分類を柔軟なビンベースアプローチで置き換える方法を示す。
汎用的なタスク記述とは異なり、特定の画像に関する意味情報を含むプロンプトにより、MLLMはクロスモーダル理解を活用することができる。
論文 参考訳(メタデータ) (2025-07-20T15:05:24Z) - EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM [38.8308841469793]
本稿では,複数の参照画像とテキストプロンプトに拡散モデルを条件付けできる新しいプラグイン・アンド・プレイ適応手法であるEasyRefを紹介する。
我々は,マルチモーダル大言語モデル(MLLM)のマルチモーダル理解と命令追従機能を活用し,複数の画像内の一貫した視覚的要素を利用する。
実験の結果、EasyRefはIP-Adapterのようなチューニング不要の手法とLoRAのようなチューニングベース手法の両方を超越し、様々な領域で優れた美的品質と堅牢なゼロショットの一般化を実現している。
論文 参考訳(メタデータ) (2024-12-12T18:59:48Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Jack of All Tasks, Master of Many: Designing General-purpose Coarse-to-Fine Vision-Language Model [83.85856356798531]
VistaLLMは、粗くきめ細かな視覚言語タスクに対処する視覚システムである。
2値分割マスクをシーケンスとして表現するために、勾配対応の適応サンプリング技術を採用している。
また、新しいタスクであるAttCoSegを導入し、複数の入力画像に対してモデルの推論とグラウンド化能力を高める。
論文 参考訳(メタデータ) (2023-12-19T18:53:01Z) - Viewpoint Integration and Registration with Vision Language Foundation
Model for Image Change Understanding [15.392243642628387]
画像変化理解(ICU)に直接適用した場合,既存の視覚言語基盤モデル (VLFM) が不十分であることを示す。
ICUは複数の画像間の実際の変化をキャプチャし、それらを言語で記述するためにモデルを必要とする。
本稿では,これらの問題に対処するための視点統合と登録手法を提案する。
論文 参考訳(メタデータ) (2023-09-15T17:41:29Z) - Learning to Mask and Permute Visual Tokens for Vision Transformer Pre-Training [55.12082817901671]
我々はMasked and Permuted Vision Transformer(MaPeT)という自己教師型事前学習手法を提案する。
MaPeTは、自動回帰および置換予測を使用して、パッチ内依存関係をキャプチャする。
以上の結果から,MaPeTはベースラインやコンペティターと同一のモデル設定で比較して,ImageNet上での競合性能を実証した。
論文 参考訳(メタデータ) (2023-06-12T18:12:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。