論文の概要: Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck
- arxiv url: http://arxiv.org/abs/2503.21757v1
- Date: Thu, 27 Mar 2025 17:57:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:54:53.688912
- Title: Fwd2Bot: LVLM Visual Token Compression with Double Forward Bottleneck
- Title(参考訳): Fwd2Bot: ダブルフォワードボトムネックによるLVLMビジュアルトーケン圧縮
- Authors: Adrian Bulat, Yassine Ouali, Georgios Tzimiropoulos,
- Abstract要約: 本稿では,LVLM自体を用いて視覚情報をタスクに依存しない方法で圧縮する,Fwd2Botという新しい圧縮手法を提案する。
Fwd2Botは、生成タスクと識別タスクの両方に適した高度に不変な圧縮表現をもたらす。
- 参考スコア(独自算出の注目度): 40.21228703978429
- License:
- Abstract: In this work, we aim to compress the vision tokens of a Large Vision Language Model (LVLM) into a representation that is simultaneously suitable for (a) generative and (b) discriminative tasks, (c) is nearly lossless, and (d) is storage-efficient. We propose a novel compression approach, called Fwd2Bot, that uses the LVLM itself to compress the visual information in a task-agnostic manner. At the core of Fwd2bot there exists a "double-forward pass" training strategy, whereby, during the first forward pass, the LLM (of the LVLM) creates a bottleneck by condensing the visual information into a small number of summary tokens. Then, using the same LLM, the second forward pass processes the language instruction(s) alongside the summary tokens, used as a direct replacement for the image ones. The training signal is provided by two losses: an autoregressive one applied after the second pass that provides a direct optimization objective for compression, and a contrastive loss, applied after the first pass, that further boosts the representation strength, especially for discriminative tasks. The training is further enhanced by stage-specific adapters. We accompany the proposed method by an in-depth ablation study. Overall, Fwd2Bot results in highly-informative compressed representations suitable for both generative and discriminative tasks. For generative tasks, we offer a 2x higher compression rate without compromising the generative capabilities, setting a new state-of-the-art result. For discriminative tasks, we set a new state-of-the-art on image retrieval and compositionality.
- Abstract(参考訳): 本研究では,LVLM(Large Vision Language Model)の視覚トークンを,同時に適切な表現に圧縮することを目的とする。
From gene + -rative.
(b)識別作業
(c)ほとんど損失がなく
(d)は貯蔵効率が高い。
本稿では,LVLM自体を用いて視覚情報をタスクに依存しない方法で圧縮する,Fwd2Botという新しい圧縮手法を提案する。
Fwd2botのコアには「ダブルフォワードパス」トレーニング戦略があり、最初の前方通過の間、LLM(LVLM)は視覚情報を少数の要約トークンに凝縮することでボトルネックを発生させる。
次に、同じLLMを使用して、第2のフォワードパスは、要約トークンと共に言語命令(s)を処理し、イメージトークンの直接置換として使用される。
トレーニング信号は、圧縮の直接最適化目的を提供する第2のパス後に適用される自己回帰的1と、第1のパス後に適用されるコントラスト的損失の2つの損失により、さらに表現強度、特に識別タスクを向上させる。
トレーニングはステージ固有のアダプタによってさらに強化される。
詳細なアブレーション研究により提案手法に付随する。
全体として、Fwd2Botは生成タスクと識別タスクの両方に適した、高度に不変な圧縮表現をもたらす。
生成タスクでは、生成能力を損なうことなく2倍の圧縮率を提供し、新しい最先端の結果を設定します。
識別的タスクに対しては,画像検索と合成性に新たな現状を定めている。
関連論文リスト
- QLIP: Text-Aligned Visual Tokenization Unifies Auto-Regressive Multimodal Understanding and Generation [101.28446308930367]
Quantized Language-Image Pretraining (QLIP)は、最先端の再構築品質と最先端のゼロショットイメージ理解を組み合わせたものだ。
QLIPは、リコンストラクションと言語イメージアライメントの目的を備えた、二進数量子化に基づくオートエンコーダをトレーニングする。
QLIPは、理解と生成のための複合モダリティ自動回帰モデルを可能にすることを実証する。
論文 参考訳(メタデータ) (2025-02-07T18:59:57Z) - iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models [24.0346607116299]
iLLaVAは、現在のLVLM(Large Vision-Language Models)にシームレスにデプロイできるシンプルな方法である。
iLLaVAは、冗長トークンを正確で高速なアルゴリズムで発見し、徐々にマージすることでこれを達成している。
単一イメージ、マルチイメージ、ビデオを含むさまざまな領域にわたるタスクにおいて、iLLaVAは一貫して有望な効率で強力な一般化性を示す。
論文 参考訳(メタデータ) (2024-12-09T07:22:19Z) - Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。
最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。
GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文 参考訳(メタデータ) (2024-06-28T17:57:14Z) - Vision Model Pre-training on Interleaved Image-Text Data via Latent Compression Learning [78.19528555505961]
本稿では,LCL(Latent Compression Learning)と呼ばれる視覚モデル事前学習手法を提案する。
学習対象は,1)視覚表現と先行文脈の対比学習,2)視覚表現に基づく後続テキストの生成という2つの基本課題に分解することができる。
実験により,本手法は,ペア付き事前学習データセット上でのCLIPの性能に適合するだけでなく,インターリーブ付き事前学習データの活用も可能であることが示された。
論文 参考訳(メタデータ) (2024-06-11T17:59:35Z) - Noise Self-Regression: A New Learning Paradigm to Enhance Low-Light Images Without Task-Related Data [86.68013790656762]
タスク関連のデータにアクセスせずにノイズ自己回帰(NoiSER)を提案する。
NoiSERは品質向上に非常に競争力があるが、モデルのサイズははるかに小さく、トレーニングや推論のコストもはるかに低い。
論文 参考訳(メタデータ) (2022-11-09T06:18:18Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - IB-DRR: Incremental Learning with Information-Back Discrete
Representation Replay [4.8666876477091865]
インクリメンタルラーニングは、機械学習モデルが新しいクラスから新しい知識を継続的に取得できるようにすることを目的としている。
以前に見たクラスのトレーニングサンプルのサブセットをメモリに保存し、新しいトレーニングフェーズ中に再生することは、この目標を達成するために効率的で効果的な方法であることが証明されています。
しかし、モデルパフォーマンスと各クラスに保存するサンプル数とのトレードオフを見つけることは、リプレイベースの漸進学習では依然として未解決の問題である。
論文 参考訳(メタデータ) (2021-04-21T15:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。