論文の概要: TokenFLEX: Unified VLM Training for Flexible Visual Tokens Inference
- arxiv url: http://arxiv.org/abs/2504.03154v1
- Date: Fri, 04 Apr 2025 04:24:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-07 14:48:20.896225
- Title: TokenFLEX: Unified VLM Training for Flexible Visual Tokens Inference
- Title(参考訳): TokenFLEX: フレキシブルなビジュアルトークン推論のための統一VLMトレーニング
- Authors: Junshan Hu, Jialiang Mao, Zhikang Liu, Zhongpu Xia, Peng Jia, Xianpeng Lang,
- Abstract要約: TokenFLEXは、画像を可変数のトークンにエンコードし、Large Language Model (LLM)と効率的に統合するビジョン言語フレームワークである。
われわれのアプローチは2つの重要な革新によって支えられている。まず、様々な視覚トークンのパフォーマンスを向上させる新しい訓練パラダイムを提案する。
次に、軽量な視覚トークンプーリング層とSwiGLUを設計し、視覚トークンのフレキシブルなダウンサンプリングを可能にする。
- 参考スコア(独自算出の注目度): 2.7578634916222198
- License:
- Abstract: Conventional Vision-Language Models(VLMs) typically utilize a fixed number of vision tokens, regardless of task complexity. This one-size-fits-all strategy introduces notable inefficiencies: using excessive tokens leads to unnecessary computational overhead in simpler tasks, whereas insufficient tokens compromise fine-grained visual comprehension in more complex contexts. To overcome these limitations, we present TokenFLEX, an innovative and adaptable vision-language framework that encodes images into a variable number of tokens for efficient integration with a Large Language Model (LLM). Our approach is underpinned by two pivotal innovations. Firstly, we present a novel training paradigm that enhances performance across varying numbers of vision tokens by stochastically modulating token counts during training. Secondly, we design a lightweight vision token projector incorporating an adaptive pooling layer and SwiGLU, allowing for flexible downsampling of vision tokens and adaptive selection of features tailored to specific token counts. Comprehensive experiments reveal that TokenFLEX consistently outperforms its fixed-token counterparts, achieving notable performance gains across various token counts enhancements of 1.6%, 1.0%, and 0.4% with 64, 144, and 256 tokens, respectively averaged over eight vision-language benchmarks. These results underscore TokenFLEX's remarkable flexibility while maintaining high-performance vision-language understanding.
- Abstract(参考訳): 従来のビジョンランゲージモデル(VLM)は通常、タスクの複雑さに関わらず、一定数のビジョントークンを使用する。
過剰なトークンを使用すると、単純なタスクで不要な計算オーバーヘッドが発生するのに対して、不十分なトークンはより複雑なコンテキストにおけるきめ細かい視覚的理解を損なう。
TokenFLEXは、画像を可変数のトークンにエンコードし、Large Language Model (LLM)と効率的に統合する、革新的で適応可能な視覚言語フレームワークである。
私たちのアプローチは2つの重要なイノベーションによって支えられています。
まず、学習中のトークン数を確率論的に調節することで、様々な数の視覚トークンのパフォーマンスを向上させる新しい訓練パラダイムを提案する。
第二に、適応型プーリング層とSwiGLUを組み込んだ軽量な視覚トークンプロジェクタを設計し、視覚トークンのフレキシブルなダウンサンプリングと、特定のトークン数に適した機能の選択を可能にする。
総合的な実験によると、TokenFLEXは固定トークンよりも一貫して優れており、様々なトークン数で顕著なパフォーマンス向上を達成しており、それぞれ8つのビジョンベンチマークで平均された64、144、256のトークンで1.6%、1.0%、0.4%向上している。
これらの結果はTokenFLEXの優れた柔軟性と高性能な視覚言語理解の両立を図っている。
関連論文リスト
- Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - Multi-Token Enhancing for Vision Representation Learning [56.27470175987989]
視覚表現学習、特に自己教師付き学習は、様々な視覚応用において重要である。
従来のアンサンブル戦略では、kモデルのアンサンブルに対して、K倍のトレーニングと推論コストが必要となる。
本稿では,複数の補助トークンを1つのモデルから同時に抽出し,表現学習を強化するMulti-Token Enhancing(MTE)を提案する。
論文 参考訳(メタデータ) (2024-11-24T11:33:17Z) - FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。
提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文 参考訳(メタデータ) (2024-11-21T14:22:38Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。