論文の概要: Video, How Do Your Tokens Merge?
- arxiv url: http://arxiv.org/abs/2506.03885v1
- Date: Wed, 04 Jun 2025 12:28:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.32
- Title: Video, How Do Your Tokens Merge?
- Title(参考訳): ビデオ:Tokensはどうやってマージするのか?
- Authors: Sam Pollard, Michael Wray,
- Abstract要約: ビデオトランスモデルは、入力の時間的スケーリングのために大量の計算資源を必要とする。
近年の手法では,ランダムに,あるいは学習した方法で,画像モデルのトークンをドロップまたはマージする手法が提案されている。
トークンのマージには多くのメリットがある。任意のトランスフォーマーやビジョンにプラグインすることができ、そうでなければモデルを通じてドロップされる情報を伝搬する。
- 参考スコア(独自算出の注目度): 4.550639073158844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video transformer models require huge amounts of compute resources due to the spatio-temporal scaling of the input. Tackling this, recent methods have proposed to drop or merge tokens for image models, whether randomly or via learned methods. Merging tokens has many benefits: it can be plugged into any vision transformer, does not require model re-training, and it propagates information that would otherwise be dropped through the model. Before now, video token merging has not been evaluated on temporally complex datasets for video understanding. In this work, we explore training-free token merging for video to provide comprehensive experiments and find best practices across four video transformers on three datasets that exhibit coarse and fine-grained action recognition. Our results showcase the benefits of video token merging with a speedup of around $2.5$X while maintaining accuracy (avg. $-0.55\%$ for ViViT). Code available at https://github.com/sjpollard/video-how-do-your-tokens-merge.
- Abstract(参考訳): ビデオトランスモデルは、入力の時空間スケーリングのために大量の計算資源を必要とする。
これに対応するため、最近の手法ではランダムに、あるいは学習した方法で、画像モデルのトークンをドロップまたはマージする手法が提案されている。
トークンのマージには多くのメリットがある。任意のビジョントランスフォーマーにプラグインでき、モデルの再トレーニングを必要としない。
これまで、ビデオ理解のための時間的に複雑なデータセットでは、ビデオトークンのマージは評価されていない。
本研究では、ビデオのトレーニングフリートークンマージについて検討し、包括的実験を行い、粗くきめ細かいアクション認識を示す3つのデータセット上の4つのビデオトランスフォーマーのベストプラクティスを見出す。
以上の結果から,ビデオトークンと約2.5ドル(約2万2000円)のスピードアップを両立させながら,精度を保ちながら動画トークンをマージするメリットが示された。
$-0.55\%$ for ViViT)。
コードはhttps://github.com/sjpollard/video-how-do-your-tokens-merge.comで公開されている。
関連論文リスト
- Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。
CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文 参考訳(メタデータ) (2024-11-22T06:50:44Z) - Principles of Visual Tokens for Efficient Video Understanding [36.05950369461622]
少人数のトークンを効果的に選択できる軽量ビデオモデルLITEを提案する。
LITEはデータセットやその他のタスクに対して,再トレーニングを必要とせずに一般化可能であることを示す。
論文 参考訳(メタデータ) (2024-11-20T14:09:47Z) - Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。
提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文 参考訳(メタデータ) (2024-10-31T09:55:32Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - UMIFormer: Mining the Correlations between Similar Tokens for Multi-View
3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。
これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。
様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文 参考訳(メタデータ) (2023-02-27T17:27:45Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。