論文の概要: TabFlash: Efficient Table Understanding with Progressive Question Conditioning and Token Focusing
- arxiv url: http://arxiv.org/abs/2511.13283v1
- Date: Mon, 17 Nov 2025 12:00:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.197544
- Title: TabFlash: Efficient Table Understanding with Progressive Question Conditioning and Token Focusing
- Title(参考訳): TabFlash: プログレッシブな質問条件とToken Focusingによる効率的なテーブル理解
- Authors: Jongha Kim, Minseong Bae, Sanghyeok Lee, Jinsung Yoon, Hyunwoo J. Kim,
- Abstract要約: 我々は、テーブル理解を改善するために、情報的かつコンパクトな視覚的特徴を生成することを目指している。
まず,視覚変換器層に問合せを注入する問合せ条件を提案する。
冗長性を低減するため,背景トークンを破棄し,効率を向上するプルーニング戦略を導入する。
- 参考スコア(独自算出の注目度): 42.17163018173427
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Table images present unique challenges for effective and efficient understanding due to the need for question-specific focus and the presence of redundant background regions. Existing Multimodal Large Language Model (MLLM) approaches often overlook these characteristics, resulting in uninformative and redundant visual representations. To address these issues, we aim to generate visual features that are both informative and compact to improve table understanding. We first propose progressive question conditioning, which injects the question into Vision Transformer layers with gradually increasing frequency, considering each layer's capacity to handle additional information, to generate question-aware visual features. To reduce redundancy, we introduce a pruning strategy that discards background tokens, thereby improving efficiency. To mitigate information loss from pruning, we further propose token focusing, a training strategy that encourages the model to concentrate essential information in the retained tokens. By combining these approaches, we present TabFlash, an efficient and effective MLLM for table understanding. TabFlash achieves state-of-the-art performance, outperforming both open-source and proprietary MLLMs, while requiring 27% less FLOPs and 30% less memory usage compared to the second-best MLLM.
- Abstract(参考訳): 表画像は、疑問特化と冗長な背景領域の存在が要求されるため、効率的かつ効率的な理解のためのユニークな課題を示す。
既存のMultimodal Large Language Model (MLLM) アプローチはしばしばこれらの特徴を見落とし、非形式的かつ冗長な視覚表現をもたらす。
これらの課題に対処するため、我々は、テーブル理解を改善するために、情報的かつコンパクトな視覚的特徴を生成することを目指している。
まず,各レイヤの付加情報処理能力を考慮して視覚変換器層に問合せを注入し,問合せ対応の視覚特徴を生成するプログレッシブ・クェンション・コンディショニングを提案する。
冗長性を低減するため,背景トークンを破棄し,効率を向上するプルーニング戦略を導入する。
さらに,プルーニングからの情報損失を軽減するために,保持トークンに本質的な情報を集中させるトレーニング戦略であるトークンフォーカスを提案する。
これらの手法を組み合わせることで、テーブル理解のための効率的かつ効果的なMLLMであるTabFlashを提案する。
TabFlashは最先端のパフォーマンスを実現し、オープンソースのMLLMとプロプライエタリなMLLMの両方を上回り、27%のFLOPと30%のメモリ使用率を必要とする。
関連論文リスト
- A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。
本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。
層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文 参考訳(メタデータ) (2025-11-19T04:13:36Z) - ELMM: Efficient Lightweight Multimodal Large Language Models for Multimodal Knowledge Graph Completion [34.49091265125411]
マルチモーダル知識グラフ(MKG)は、視覚的およびテキスト的モダリティを取り入れ、よりリッチで表現力のあるエンティティ表現を可能にすることで、従来の知識グラフを拡張している。
既存のMKGは、しばしば不完全性に悩まされ、下流のタスクにおいてその効果を阻害する。
大規模言語モデル (LLMs) は知識グラフ補完 (KGC) を約束している。
MKGCのための効率的な軽量マルチモーダル言語モデル(ELMM)を提案する。
論文 参考訳(メタデータ) (2025-10-19T08:29:43Z) - Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - RedundancyLens: Revealing and Exploiting Visual Token Processing Redundancy for Efficient Decoder-Only MLLMs [38.34856927170692]
MLLM(Multimodal Large Language Model)の学習用フレームワークを提案する。
Probe-Activated Dynamic FFNとHollow Attentionで構成されており、ビジュアルトークンの計算の調整可能な削減を可能にする。
実験では、デコーダのみのMLLMに特有の、実質的で、構造化され、クラスタ化された冗長性を示す。
論文 参考訳(メタデータ) (2025-01-31T11:09:16Z) - FOLDER: Accelerating Multi-modal Large Language Models with Enhanced Performance [9.782362715017596]
視覚トークン列の長さを削減するために設計された,シンプルで効果的なプラグアンドプレイモジュールであるFOLDERを紹介する。
我々は、異なる還元戦略によってもたらされた情報損失を分析し、視覚的冗長性を取り除きながら鍵情報を保存するFOLDERを開発した。
FOLDERは、オリジナルのモデルと同等またはそれ以上のパフォーマンスを達成すると同時に、最大70%のビジュアルトークンを削除することで、複雑さを劇的に低減する。
論文 参考訳(メタデータ) (2025-01-05T03:28:45Z) - A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs [65.00970402080351]
大規模視覚言語モデル(VLM)を加速するための有望なアプローチは、特定のレイヤからの注意マップのような部分的な情報を使用してトークンの重要性を評価し、重要度を低く抑えることである。
i) 重要な視覚的トークンを正確に識別するには,部分的注意情報は不十分であり,特に低トークン保持率において,最適なパフォーマンスをもたらす。 (ii) 全層に集約された注目マップのようなグローバルな注意情報は,より効果的に重要なトークンを保存し,攻撃的プルーニングの下で同等のパフォーマンスを維持する。 (iii) 小さなVLMから集約されたグローバルな注意マップは,大きなVLMとよく似ている。
論文 参考訳(メタデータ) (2024-12-04T13:56:44Z) - Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [66.04061083611863]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。
DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。
DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文 参考訳(メタデータ) (2024-11-29T11:24:23Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。
VTWは、あるレイヤで視覚トークンを戦略的に取り除き、テキストトークンだけがその後のレイヤに関与できるようにする。
提案手法は,マルチモーダルタスクにおいて,性能を維持しながら計算オーバーヘッドを40%以上削減できる。
論文 参考訳(メタデータ) (2024-05-09T14:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。