論文の概要: Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2509.06415v1
- Date: Mon, 08 Sep 2025 08:12:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:04.011113
- Title: Index-Preserving Lightweight Token Pruning for Efficient Document Understanding in Vision-Language Models
- Title(参考訳): 視覚言語モデルにおける効率的な文書理解のための索引保存軽量トーケンプルーニング
- Authors: Jaemin Son, Sujin Choi, Inyong Yun,
- Abstract要約: VLM処理に先立って文書画像から非表現的背景領域をフィルタリングする軽量なトークンプルーニングフレームワークを提案する。
バイナリパッチレベル分類器は、非テキスト領域を除去し、最大プール精算ステップは、断片化されたテキスト領域を回復し、空間コヒーレンスを高める。
実世界の文書データセットに対する実験により、我々の手法は計算コストを大幅に削減し、同等の精度を維持していることが示された。
- 参考スコア(独自算出の注目度): 0.07269456716914098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in vision-language models (VLMs) has led to impressive results in document understanding tasks, but their high computational demands remain a challenge. To mitigate the compute burdens, we propose a lightweight token pruning framework that filters out non-informative background regions from document images prior to VLM processing. A binary patch-level classifier removes non-text areas, and a max-pooling refinement step recovers fragmented text regions to enhance spatial coherence. Experiments on real-world document datasets demonstrate that our approach substantially lowers computational costs, while maintaining comparable accuracy.
- Abstract(参考訳): 近年の視覚言語モデル(VLM)の進歩は文書理解タスクにおいて顕著な結果をもたらしたが、その高い計算要求は依然として課題である。
計算負担を軽減するために,VLM処理に先立って文書画像から非表現的背景領域をフィルタリングする軽量なトークンプルーニングフレームワークを提案する。
バイナリパッチレベル分類器は、非テキスト領域を除去し、最大プール精算ステップは、断片化されたテキスト領域を回復し、空間コヒーレンスを高める。
実世界の文書データセットに対する実験により、我々の手法は計算コストを大幅に削減し、同等の精度を維持していることが示された。
関連論文リスト
- Resource-Efficient Adaptation of Large Language Models for Text Embeddings via Prompt Engineering and Contrastive Fine-tuning [6.549601823162279]
大規模言語モデル(LLM)は自然言語処理(NLP)の基盤となっている。
プリトレーニングされたデコーダのみのLLMの適応戦略について検討する。
論文 参考訳(メタデータ) (2025-07-30T14:49:30Z) - VDInstruct: Zero-Shot Key Information Extraction via Content-Aware Vision Tokenization [7.769156392417315]
鍵情報抽出は、視覚文書の理解の基盤となる。
既存のマルチモーダルな大言語モデル (MLLM) は、高密度な文書ではよく機能しない。
本稿では,空間領域検出と意味的特徴抽出を分離するMLLMであるVDInstructを紹介する。
論文 参考訳(メタデータ) (2025-07-13T08:15:11Z) - Semantic Outlier Removal with Embedding Models and LLMs [0.45080838507508303]
我々は,不必要なテキストセグメントを識別・抽出するためのコスト効率のよい透明なSORE(Semantic Outlier removal)を紹介する。
SOREは、約LLM抽出精度をコストのごく一部で達成する。
当社のシステムは現在本番環境にデプロイされており、複数の言語で毎日数百万のドキュメントを処理しています。
論文 参考訳(メタデータ) (2025-06-19T23:06:12Z) - Prompt-based Dynamic Token Pruning for Efficient Segmentation of Medical Images [1.4146420810689422]
本研究では, セグメンテーションパイプラインにおける無関係トークンの処理を選択的に削減する, Prompt-driven Adaptive Token pruning法を提案する。
実験の結果,35-55%のトークンを$sim$で還元し,ベースラインに対する計算コストを低減した。
論文 参考訳(メタデータ) (2025-06-19T14:45:46Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Zero-Shot Video Moment Retrieval from Frozen Vision-Language Models [58.17315970207874]
モーメント・テキストアライメントを容易にするため、任意のVLMから一般化可能なビジュアル・テクスチャの事前適応のためのゼロショット手法を提案する。
3つのVMRベンチマークデータセットで実施された実験は、ゼロショットアルゴリズムの顕著なパフォーマンス上の利点を示している。
論文 参考訳(メタデータ) (2023-09-01T13:06:50Z) - Structured Vision-Language Pretraining for Computational Cooking [54.0571416522547]
Vision-Language PretrainingとFoundationモデルは、一般的なベンチマークでSoTAのパフォーマンスを達成するためのゴーツーレシピです。
本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。
論文 参考訳(メタデータ) (2022-12-08T13:37:17Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。