論文の概要: Principles of Visual Tokens for Efficient Video Understanding
- arxiv url: http://arxiv.org/abs/2411.13626v1
- Date: Wed, 20 Nov 2024 14:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-22 15:19:22.284827
- Title: Principles of Visual Tokens for Efficient Video Understanding
- Title(参考訳): 効率的な映像理解のための視覚トークンの原理
- Authors: Xinyue Hao, Gen Li, Shreyank N Gowda, Robert B Fisher, Jonathan Huang, Anurag Arnab, Laura Sevilla-Lara,
- Abstract要約: ビデオ理解は近年大きく進歩し、トランスフォーマーアーキテクチャのパワーに大きく依存している。
これにより、トークンのマージやトークンの選択など、多くのクリエイティブなソリューションが生まれました。
ほとんどの手法はモデルのコスト削減と精度維持に成功しているが、興味深いパターンが生じる。
我々はLITEと呼ばれる軽量ビデオモデルを提案し、少数のトークンを効果的に選択し、GFLOP(State-of-the-art calculation)と精度に優れる。
- 参考スコア(独自算出の注目度): 36.05950369461622
- License:
- Abstract: Video understanding has made huge strides in recent years, relying largely on the power of the transformer architecture. As this architecture is notoriously expensive and video is highly redundant, research into improving efficiency has become particularly relevant. This has led to many creative solutions, including token merging and token selection. While most methods succeed in reducing the cost of the model and maintaining accuracy, an interesting pattern arises: most methods do not outperform the random sampling baseline. In this paper we take a closer look at this phenomenon and make several observations. First, we develop an oracle for the value of tokens which exposes a clear Pareto distribution where most tokens have remarkably low value, and just a few carry most of the perceptual information. Second, we analyze why this oracle is extremely hard to learn, as it does not consistently coincide with visual cues. Third, we observe that easy videos need fewer tokens to maintain accuracy. We build on these and further insights to propose a lightweight video model we call LITE that can select a small number of tokens effectively, outperforming state-of-the-art and existing baselines across datasets (Kinetics400 and Something-Something-V2) in the challenging trade-off of computation (GFLOPs) vs accuracy.
- Abstract(参考訳): ビデオ理解は近年大きく進歩し、トランスフォーマーアーキテクチャのパワーに大きく依存している。
このアーキテクチャは高価でビデオは非常に冗長であるため、効率を改善する研究が特に重要になっている。
これにより、トークンのマージやトークンの選択など、多くのクリエイティブなソリューションが生まれました。
ほとんどの手法はモデルのコスト削減と精度維持に成功しているが、興味深いパターンが生じる。
本稿では、この現象を詳しく見て、いくつかの観察を行う。
まず,ほとんどのトークンが極めて低い値を持ち,ごく少数のトークンが知覚情報のほとんどを担っている,明確なPareto分布を公開するトークンの値のオラクルを開発する。
第二に、このオラクルが視覚的手がかりと一貫して一致しないため、なぜ学習が極めて難しいのかを分析する。
第3に、簡単なビデオでは正確性を維持するためにトークンが少なくなることを観察する。
LITEは少数のトークンを効果的に選択でき、データセット間のベースライン(Kinetics400とSomething-V2)を、計算の困難なトレードオフ(GFLOPs)と精度で上回ります。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文 参考訳(メタデータ) (2023-06-20T17:56:16Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。