Fugu-MT 論文翻訳(概要): Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers

論文の概要: Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers

arxiv url: http://arxiv.org/abs/2410.14072v1
Date: Thu, 17 Oct 2024 22:45:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.256018
Title: Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers
Title（参考訳）: 視覚トークンをコンパクトレジスタに要約した効率的な視覚言語モデル
Authors: Yuxin Wen, Qingqing Cao, Qichen Fu, Sachin Mehta, Mahyar Najibi,
Abstract要約: 本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できる手法を提案する。ビクターは4%未満の精度低下を示し、トレーニング時間を43%削減し、推論スループットを3.3倍に向上させる。
参考スコア（独自算出の注目度）: 32.167072183575925
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in vision-language models (VLMs) have expanded their potential for real-world applications, enabling these models to perform complex reasoning on images. In the widely used fully autoregressive transformer-based models like LLaVA, projected visual tokens are prepended to textual tokens. Oftentimes, visual tokens are significantly more than prompt tokens, resulting in increased computational overhead during both training and inference. In this paper, we propose Visual Compact Token Registers (Victor), a method that reduces the number of visual tokens by summarizing them into a smaller set of register tokens. Victor adds a few learnable register tokens after the visual tokens and summarizes the visual information into these registers using the first few layers in the language tower of VLMs. After these few layers, all visual tokens are discarded, significantly improving computational efficiency for both training and inference. Notably, our method is easy to implement and requires a small number of new trainable parameters with minimal impact on model performance. In our experiment, with merely 8 visual registers--about 1% of the original tokens--Victor shows less than a 4% accuracy drop while reducing the total training time by 43% and boosting the inference throughput by 3.3X.
Abstract（参考訳）: 視覚言語モデル(VLM)の最近の進歩は、実世界の応用の可能性を広げ、これらのモデルが画像上で複雑な推論を行うことを可能にする。 LLaVAのような広く使われている完全自己回帰型トランスフォーマーモデルでは、投影された視覚トークンはテキストトークンに前向きである。多くの場合、視覚トークンはプロンプトトークンよりもはるかに多く、トレーニングと推論の間に計算オーバーヘッドが増加する。本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できるVisual Compact Token Registers (Victor)を提案する。 Victorは、ビジュアルトークンの後にいくつかの学習可能なレジスタトークンを追加し、VLMの言語タワーの最初のいくつかのレイヤを使用して、これらのレジスタに視覚情報を要約する。これらの数層の後、全ての視覚トークンは破棄され、トレーニングと推論の両方の計算効率が大幅に向上する。特に,本手法は実装が容易で,モデルの性能に最小限の影響を伴って,少数の新しいトレーニング可能なパラメータを必要とする。実験では,8個のビジュアルレジスタ(元のトークンの約1%)で4%未満の精度低下を示し,トレーニング時間を43%削減し,推論スループットを3.3倍に向上させた。

関連論文リスト

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
Rethinking Visual Token Reduction in LVLMs under Cross-modal Misalignment [38.04426918886084]
視覚言語モデル(LVLM)は、視覚入力をパッチレベルのトークンの密度の高いシーケンスとしてエンコードし、微細なセマンティクスをキャプチャする。これまでは、大型言語モデル(LLM)の前か中のいずれかで、視覚トークンの削減を検討してきた。トレーニングフリーで視覚のみのプルーニングフレームワークであるVisionDropを導入し、モーダル内(視覚から視覚への)注目に基づいて情報的視覚トークンを選択する。
論文参考訳（メタデータ） (2025-06-27T14:55:40Z)
VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。 1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。 VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文参考訳（メタデータ） (2025-05-28T17:59:08Z)
ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
Window Token Concatenation for Efficient Visual Large Language Models [59.6094005814282]
視覚的大言語モデル(VLLM)における視覚トークンを減らすために,ウィンドウトークン結合(WiCo)を提案する。 WiCoグループはさまざまなトークンをひとつに分類し、いくつかの細かい詳細を曖昧にします。我々はLLaVA-1.5とShikraをベースとした粗くきめ細かな視覚的理解タスクについて広範囲に実験を行い、既存のトークン低減プロジェクタと比較して優れた性能を示した。
論文参考訳（メタデータ） (2025-04-05T02:32:58Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
Beyond Text-Visual Attention: Exploiting Visual Cues for Effective Token Pruning in VLMs [34.3615740255575]
大規模視覚言語モデル(LVLM)は一般的に、テキストのトークンよりもはるかに多くの視覚トークンを含んでいる。 LVLMにおけるより効果的なトークンプルーニングに視覚的手がかりを利用するプラグイン・アンド・プレイ方式であるVisPrunerを提案する。その結果, VisPruner は LLaVA-1.5-7B の FLOP を 91% 削減し, 推論遅延を 75% 削減できることを示した。
論文参考訳（メタデータ） (2024-12-02T18:57:40Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Principles of Visual Tokens for Efficient Video Understanding [36.05950369461622]
少人数のトークンを効果的に選択できる軽量ビデオモデルLITEを提案する。 LITEはデータセットやその他のタスクに対して,再トレーニングを必要とせずに一般化可能であることを示す。
論文参考訳（メタデータ） (2024-11-20T14:09:47Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル(VLM)では、視覚トークンは通常かなりの計算オーバーヘッドを消費する。本稿では、余分なパラメータや微調整コストを伴わずに、SparseVLMと呼ばれる効率的なトレーニングフリートークン最適化機構を提案する。実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。
論文参考訳（メタデータ） (2024-10-06T09:18:04Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Matryoshka Query Transformer for Large Vision-Language Models [103.84600181927884]
我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。 MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
論文参考訳（メタデータ） (2024-05-29T17:39:42Z)
LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文参考訳（メタデータ） (2024-05-16T03:26:06Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)
ELIP: Efficient Language-Image Pre-training with Fewer Vision Tokens [75.09406436851445]
本稿では,言語出力の監督による影響の少ないトークンを除去するために,視覚トークンのプルーニングとマージ手法ELIPを提案する。実験により、12層のViT層に30$%のビジョントークンが削除されたことにより、ELIPは著しく同等のパフォーマンスを維持した。
論文参考訳（メタデータ） (2023-09-28T05:31:07Z)
How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文参考訳（メタデータ） (2023-06-20T17:56:16Z)
Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文参考訳（メタデータ） (2023-06-12T11:55:33Z)
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文参考訳（メタデータ） (2021-06-21T17:55:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。