Fugu-MT 論文翻訳(概要): Video, How Do Your Tokens Merge?

論文の概要: Video, How Do Your Tokens Merge?

arxiv url: http://arxiv.org/abs/2506.03885v1
Date: Wed, 04 Jun 2025 12:28:23 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 21:20:14.32
Title: Video, How Do Your Tokens Merge?
Title（参考訳）: ビデオ:Tokensはどうやってマージするのか?
Authors: Sam Pollard, Michael Wray,
Abstract要約: ビデオトランスモデルは、入力の時間的スケーリングのために大量の計算資源を必要とする。近年の手法では,ランダムに,あるいは学習した方法で,画像モデルのトークンをドロップまたはマージする手法が提案されている。トークンのマージには多くのメリットがある。任意のトランスフォーマーやビジョンにプラグインすることができ、そうでなければモデルを通じてドロップされる情報を伝搬する。
参考スコア（独自算出の注目度）: 4.550639073158844
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video transformer models require huge amounts of compute resources due to the spatio-temporal scaling of the input. Tackling this, recent methods have proposed to drop or merge tokens for image models, whether randomly or via learned methods. Merging tokens has many benefits: it can be plugged into any vision transformer, does not require model re-training, and it propagates information that would otherwise be dropped through the model. Before now, video token merging has not been evaluated on temporally complex datasets for video understanding. In this work, we explore training-free token merging for video to provide comprehensive experiments and find best practices across four video transformers on three datasets that exhibit coarse and fine-grained action recognition. Our results showcase the benefits of video token merging with a speedup of around $2.5$X while maintaining accuracy (avg. $-0.55\%$ for ViViT). Code available at https://github.com/sjpollard/video-how-do-your-tokens-merge.
Abstract（参考訳）: ビデオトランスモデルは、入力の時空間スケーリングのために大量の計算資源を必要とする。これに対応するため、最近の手法ではランダムに、あるいは学習した方法で、画像モデルのトークンをドロップまたはマージする手法が提案されている。トークンのマージには多くのメリットがある。任意のビジョントランスフォーマーにプラグインでき、モデルの再トレーニングを必要としない。これまで、ビデオ理解のための時間的に複雑なデータセットでは、ビデオトークンのマージは評価されていない。本研究では、ビデオのトレーニングフリートークンマージについて検討し、包括的実験を行い、粗くきめ細かいアクション認識を示す3つのデータセット上の4つのビデオトランスフォーマーのベストプラクティスを見出す。以上の結果から,ビデオトークンと約2.5ドル(約2万2000円)のスピードアップを両立させながら,精度を保ちながら動画トークンをマージするメリットが示された。 $-0.55\%$ for ViViT)。コードはhttps://github.com/sjpollard/video-how-do-your-tokens-merge.comで公開されている。

関連論文リスト

TokensGen: Harnessing Condensed Tokens for Long Video Generation [20.131731700177806]
TokensGenは、凝縮トークンを利用して長いビデオを生成する新しいフレームワークである。提案手法は,長い映像生成を3つの中核的タスクに分解する:内クリップ意味制御,長期一貫性制御,クリック間スムーズな遷移。実験の結果,提案手法は計算オーバーヘッドを抑えることなく,長期的時間的・コンテンツ的コヒーレンスを著しく向上させることが示された。
論文参考訳（メタデータ） (2025-07-21T15:37:33Z)
Efficient Long Video Tokenization via Coordinate-based Patch Reconstruction [93.69757398746017]
CoordTokは、座標ベースの表現から入力ビデオの対応するパッチへのマッピングを学ぶビデオトークンである。 CoordTokは、ビデオを分解された三面体表現にエンコードし、ランダムにサンプリングされた$(x,y,t)$座標に対応するパッチを再構築する。
論文参考訳（メタデータ） (2024-11-22T06:50:44Z)
Principles of Visual Tokens for Efficient Video Understanding [36.05950369461622]
少人数のトークンを効果的に選択できる軽量ビデオモデルLITEを提案する。 LITEはデータセットやその他のタスクに対して,再トレーニングを必要とせずに一般化可能であることを示す。
論文参考訳（メタデータ） (2024-11-20T14:09:47Z)
Video Token Merging for Long-form Video Understanding [17.59960070514554]
学習可能なビデオトークンのマージアルゴリズムを提案し,その正当性に基づいて動的にトークンをマージする。提案手法は,メモリコストを84%削減し,スループットをベースラインアルゴリズムに比べて約6.89倍向上させる。
論文参考訳（メタデータ） (2024-10-31T09:55:32Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
Token Fusion: Bridging the Gap between Token Pruning and Token Merging [71.84591084401458]
ビジョントランスフォーマー(ViT)はコンピュータビジョンの強力なバックボーンとして登場し、多くの伝統的なCNNを上回っている。計算オーバーヘッドは、主に自己アテンション機構によるもので、リソース制約のあるエッジデバイスへのデプロイが困難になる。トークンプルーニングとトークンマージの両方のメリットを両立させる手法であるToken Fusion(ToFu)を紹介する。
論文参考訳（メタデータ） (2023-12-02T04:29:19Z)
UMIFormer: Mining the Correlations between Similar Tokens for Multi-View 3D Reconstruction [9.874357856580447]
非構造化多重画像(UMIFormer)のためのトランスフォーマネットワークを提案する。これは、切り離されたビュー内エンコーディングのためのトランスフォーマーブロックと、トークンの修正のために設計されたブロックを利用する。様々な分岐から取得した全てのトークンは、固定サイズのコンパクト表現に圧縮される。
論文参考訳（メタデータ） (2023-02-27T17:27:45Z)
VIOLET : End-to-End Video-Language Transformers with Masked Visual-token Modeling [88.30109041658618]
ビデオ言語(VidL)モデリングにおける大きな課題は、画像/映像理解モデルから抽出された固定されたビデオ表現と、下流のVidLデータとの切り離しにある。我々は、ビデオ入力の時間的ダイナミクスを明示的にモデル化するビデオトランスを採用した、完全なエンドツーエンドVIdeO-LanguagE変換器であるVIOLETを提案する。
論文参考訳（メタデータ） (2021-11-24T18:31:20Z)
VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文参考訳（メタデータ） (2021-06-21T16:48:19Z)
ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文参考訳（メタデータ） (2021-03-29T15:27:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。