論文の概要: ElasticTok: Adaptive Tokenization for Image and Video
- arxiv url: http://arxiv.org/abs/2410.08368v1
- Date: Thu, 10 Oct 2024 20:54:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 03:46:24.211539
- Title: ElasticTok: Adaptive Tokenization for Image and Video
- Title(参考訳): ElasticTok: 画像とビデオの適応的トークン化
- Authors: Wilson Yan, Matei Zaharia, Volodymyr Mnih, Pieter Abbeel, Aleksandra Faust, Hao Liu,
- Abstract要約: 我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
- 参考スコア(独自算出の注目度): 109.75935878130582
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient video tokenization remains a key bottleneck in learning general purpose vision models that are capable of processing long video sequences. Prevailing approaches are restricted to encoding videos to a fixed number of tokens, where too few tokens will result in overly lossy encodings, and too many tokens will result in prohibitively long sequence lengths. In this work, we introduce ElasticTok, a method that conditions on prior frames to adaptively encode a frame into a variable number of tokens. To enable this in a computationally scalable way, we propose a masking technique that drops a random number of tokens at the end of each frames's token encoding. During inference, ElasticTok can dynamically allocate tokens when needed -- more complex data can leverage more tokens, while simpler data only needs a few tokens. Our empirical evaluations on images and video demonstrate the effectiveness of our approach in efficient token usage, paving the way for future development of more powerful multimodal models, world models, and agents.
- Abstract(参考訳): 効率的なビデオトークン化は、長いビデオシーケンスを処理できる汎用視覚モデルを学ぶ上で、依然として重要なボトルネックである。
広く使われているアプローチは、ビデオのエンコーディングを一定数のトークンに制限する。トークンが多すぎると、過剰なエンコーディングが発生し、あまりにも多くのトークンが、違法に長いシーケンス長をもたらす。
本研究では,フレームを可変数のトークンに適応的にエンコードする手法であるElasticTokを紹介する。
これを実現するために,各フレームのトークンエンコーディングの最後にランダムな数のトークンをドロップするマスキング手法を提案する。
より複雑なデータはより多くのトークンを活用することができるが、単純なデータはいくつかのトークンのみを必要とする。
画像とビデオに対する実証的な評価は,より強力なマルチモーダルモデル,ワールドモデル,エージェントの今後の発展への道を開いた,効率的なトークン利用における我々のアプローチの有効性を示すものである。
関連論文リスト
- Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z) - Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model [45.01871133425388]
ライフサイクル全体から各トークンの重要性を測定するため,マルチステージトークンドロップ(MustDrop)を提案する。
MustDropはLLaVAで約88.5%のFLOPを削減し、圧縮比は92.2%である。
論文 参考訳(メタデータ) (2024-11-16T13:45:33Z) - Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。
提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文 参考訳(メタデータ) (2024-10-31T09:55:32Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - Compound Tokens: Channel Fusion for Vision-Language Representation
Learning [36.19486792701684]
質問応答タスクに視覚・言語表現を融合させる効果的な方法を提案する。
チャネルを融合させることで、標準的な方法と比較してトークンを効果的に整列させることができる。
オープン語彙設定において,エンド・ツー・エンドで訓練されたエンコーダ・デコーダ・ビジョン言語モデルを用いて複合トークンの有効性を示す。
論文 参考訳(メタデータ) (2022-12-02T21:09:52Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。