論文の概要: Enhancing Multi-Image Understanding through Delimiter Token Scaling
- arxiv url: http://arxiv.org/abs/2602.01984v1
- Date: Mon, 02 Feb 2026 11:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.112734
- Title: Enhancing Multi-Image Understanding through Delimiter Token Scaling
- Title(参考訳): デリミタトークンスケーリングによるマルチイメージ理解の強化
- Authors: Minyoung Lee, Yeji Park, Dongjun Hwang, Yejin Kim, Seong Joon Oh, Junsuk Choe,
- Abstract要約: LVLM(Large Vision-Language Models)は,複数の画像が入力として提供されると,その性能が低下する。
主要な理由の1つはクロスイメージ情報漏洩であり、そこではモデルは異なる画像間で情報を区別するのに苦労する。
既存のLVLMでは、各画像の開始と終了をマークするためにトークンが既に使用されているが、分析の結果、これらのトークンがクロスイメージ情報漏洩を効果的にブロックできないことが判明した。
トークンの隠蔽状態を拡大する手法を提案する。これにより、画像内相互作用を強化し、望ましくないクロスを制限することにより、画像固有情報を保存できる能力が向上する。
- 参考スコア(独自算出の注目度): 25.247506519133406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision-Language Models (LVLMs) achieve strong performance on single-image tasks, but their performance declines when multiple images are provided as input. One major reason is the cross-image information leakage, where the model struggles to distinguish information across different images. Existing LVLMs already employ delimiter tokens to mark the start and end of each image, yet our analysis reveals that these tokens fail to effectively block cross-image information leakage. To enhance their effectiveness, we propose a method that scales the hidden states of delimiter tokens. This enhances the model's ability to preserve image-specific information by reinforcing intra-image interaction and limiting undesired cross-image interactions. Consequently, the model is better able to distinguish between images and reason over them more accurately. Experiments show performance gains on multi-image benchmarks such as Mantis, MuirBench, MIRB, and QBench2. We further evaluate our method on text-only tasks that require clear distinction. The method improves performance on multi-document and multi-table understanding benchmarks, including TQABench, MultiNews, and WCEP-10. Notably, our method requires no additional training or inference cost.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は,複数の画像が入力として提供されると,その性能が低下する。
主要な理由の1つはクロスイメージ情報漏洩であり、そこではモデルは異なる画像間で情報を区別するのに苦労する。
既存のLVLMでは、各画像の開始と終了をマークするためにデリミタトークンが既に使用されているが、解析の結果、これらのトークンがクロスイメージ情報漏洩を効果的にブロックすることができないことが明らかになった。
有効性を高めるために,デリミタトークンの隠蔽状態を拡大する手法を提案する。
これにより、イメージ内インタラクションを強化し、望ましくないクロスイメージインタラクションを制限することで、モデルがイメージ固有の情報を保存する能力を高める。
その結果、モデルは画像と推論をより正確に区別することが可能になる。
実験では、Mantis、MuirBench、MIRB、QBench2といったマルチイメージベンチマークのパフォーマンス向上が示されている。
明瞭な区別を必要とするテキストのみのタスクに対して,本手法をさらに評価する。
この手法は、TQABench、MultiNews、WCEP-10を含むマルチドキュメントおよびマルチテーブル理解ベンチマークの性能を向上させる。
特に,本手法では追加のトレーニングや推論のコストは不要である。
関連論文リスト
- More Images, More Problems? A Controlled Analysis of VLM Failure Modes [80.64323947730905]
大規模視覚言語モデル (LVLM) は目覚ましい能力を示しているが、複数の画像に対する理解と推論の能力は未解明のままである。
LVLMのマルチイメージ能力を厳格に評価する新しいベンチマークMIMICを紹介する。
論文 参考訳(メタデータ) (2026-01-12T18:45:13Z) - Mitigating Cross-Image Information Leakage in LVLMs for Multi-Image Tasks [22.873506907783153]
本稿では,推論中のクロスイメージ情報漏洩を緩和する,トレーニングフリーでアーキテクチャに依存しないデコーディング戦略を提案する。
FOCUSは4つのマルチイメージベンチマークと多様なLVLMファミリーのパフォーマンスを継続的に改善する。
このことは、FOCUSが、追加のトレーニングやアーキテクチャの変更なしに、マルチイメージ推論を強化する汎用的で実用的なソリューションを提供することを示している。
論文 参考訳(メタデータ) (2025-08-19T11:31:39Z) - CATP: Contextually Adaptive Token Pruning for Efficient and Enhanced Multimodal In-Context Learning [15.733788584792388]
マルチモーダル・イン・コンテクスト・ラーニング(ICL)を対象とした学習自由プルーニング手法であるCATP(Contextual Adaptive Token Pruning)を提案する。
画像トークンの77.8%を取り除いた後、CATPは4つのLVLMと8つのベンチマークでバニラモデルよりも平均0.6%の性能向上を達成した。
平均10.78%のレイテンシ削減を達成することで効率を効果的に向上する。
論文 参考訳(メタデータ) (2025-08-11T11:41:51Z) - ToFu: Visual Tokens Reduction via Fusion for Multi-modal, Multi-patch, Multi-image Task [34.269081635534526]
ToFuは視覚的エンコーダに依存しない,トレーニング不要な,高解像度でマルチイメージなタスクのためのToken Fusion戦略を提案する。
LLaVA-Interleave Benchは,マルチイメージタスクに挑戦する手法である。
論文 参考訳(メタデータ) (2025-03-06T14:00:59Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - Token-level Correlation-guided Compression for Efficient Multimodal Document Understanding [54.532578213126065]
ほとんどの文書理解手法は、サブイメージ内の全てのトークンを保存し、それらを等しく扱う。
これにより、異なる情報性が無視され、画像トークンの数が大幅に増加する。
トークン処理を最適化するためのパラメータフリーかつプラグアンドプレイ手法であるトークンレベルの相関誘導圧縮を提案する。
論文 参考訳(メタデータ) (2024-07-19T16:11:15Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。