論文の概要: TabFlash: Efficient Table Understanding with Progressive Question Conditioning and Token Focusing
- arxiv url: http://arxiv.org/abs/2511.13283v1
- Date: Mon, 17 Nov 2025 12:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.197544
- Title: TabFlash: Efficient Table Understanding with Progressive Question Conditioning and Token Focusing
- Title(参考訳): TabFlash: プログレッシブな質問条件とToken Focusingによる効率的なテーブル理解
- Authors: Jongha Kim, Minseong Bae, Sanghyeok Lee, Jinsung Yoon, Hyunwoo J. Kim,
- Abstract要約: 我々は、テーブル理解を改善するために、情報的かつコンパクトな視覚的特徴を生成することを目指している。
まず,視覚変換器層に問合せを注入する問合せ条件を提案する。
冗長性を低減するため,背景トークンを破棄し,効率を向上するプルーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 42.17163018173427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table images present unique challenges for effective and efficient understanding due to the need for question-specific focus and the presence of redundant background regions. Existing Multimodal Large Language Model (MLLM) approaches often overlook these characteristics, resulting in uninformative and redundant visual representations. To address these issues, we aim to generate visual features that are both informative and compact to improve table understanding. We first propose progressive question conditioning, which injects the question into Vision Transformer layers with gradually increasing frequency, considering each layer's capacity to handle additional information, to generate question-aware visual features. To reduce redundancy, we introduce a pruning strategy that discards background tokens, thereby improving efficiency. To mitigate information loss from pruning, we further propose token focusing, a training strategy that encourages the model to concentrate essential information in the retained tokens. By combining these approaches, we present TabFlash, an efficient and effective MLLM for table understanding. TabFlash achieves state-of-the-art performance, outperforming both open-source and proprietary MLLMs, while requiring 27% less FLOPs and 30% less memory usage compared to the second-best MLLM.
- Abstract(参考訳): 表画像は、疑問特化と冗長な背景領域の存在が要求されるため、効率的かつ効率的な理解のためのユニークな課題を示す。
既存のMultimodal Large Language Model (MLLM) アプローチはしばしばこれらの特徴を見落とし、非形式的かつ冗長な視覚表現をもたらす。
これらの課題に対処するため、我々は、テーブル理解を改善するために、情報的かつコンパクトな視覚的特徴を生成することを目指している。
まず,各レイヤの付加情報処理能力を考慮して視覚変換器層に問合せを注入し,問合せ対応の視覚特徴を生成するプログレッシブ・クェンション・コンディショニングを提案する。
冗長性を低減するため,背景トークンを破棄し,効率を向上するプルーニング戦略を導入する。
さらに,プルーニングからの情報損失を軽減するために,保持トークンに本質的な情報を集中させるトレーニング戦略であるトークンフォーカスを提案する。
これらの手法を組み合わせることで、テーブル理解のための効率的かつ効果的なMLLMであるTabFlashを提案する。
TabFlashは最先端のパフォーマンスを実現し、オープンソースのMLLMとプロプライエタリなMLLMの両方を上回り、27%のFLOPと30%のメモリ使用率を必要とする。
関連論文リスト
- ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Completion [34.49091265125411]
マルチモーダル知識グラフ(MKG)は、視覚的およびテキスト的モダリティを取り入れ、よりリッチで表現力のあるエンティティ表現を可能にすることで、従来の知識グラフを拡張している。
既存のMKGは、しばしば不完全性に悩まされ、下流のタスクにおいてその効果を阻害する。
大規模言語モデル (LLMs) は知識グラフ補完 (KGC) を約束している。
MKGCのための効率的な軽量マルチモーダル言語モデル(ELMM)を提案する。
論文 参考訳(メタデータ) (2025-10-19T08:29:43Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。