Fugu-MT 論文翻訳(概要): Principles of Visual Tokens for Efficient Video Understanding

論文の概要: Principles of Visual Tokens for Efficient Video Understanding

arxiv url: http://arxiv.org/abs/2411.13626v1
Date: Wed, 20 Nov 2024 14:09:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.625943
Title: Principles of Visual Tokens for Efficient Video Understanding
Title（参考訳）: 効率的な映像理解のための視覚トークンの原理
Authors: Xinyue Hao, Gen Li, Shreyank N Gowda, Robert B Fisher, Jonathan Huang, Anurag Arnab, Laura Sevilla-Lara,
Abstract要約: ビデオ理解は近年大きく進歩し、トランスフォーマーアーキテクチャのパワーに大きく依存している。これにより、トークンのマージやトークンの選択など、多くのクリエイティブなソリューションが生まれました。ほとんどの手法はモデルのコスト削減と精度維持に成功しているが、興味深いパターンが生じる。我々はLITEと呼ばれる軽量ビデオモデルを提案し、少数のトークンを効果的に選択し、GFLOP(State-of-the-art calculation)と精度に優れる。
参考スコア（独自算出の注目度）: 36.05950369461622
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Video understanding has made huge strides in recent years, relying largely on the power of the transformer architecture. As this architecture is notoriously expensive and video is highly redundant, research into improving efficiency has become particularly relevant. This has led to many creative solutions, including token merging and token selection. While most methods succeed in reducing the cost of the model and maintaining accuracy, an interesting pattern arises: most methods do not outperform the random sampling baseline. In this paper we take a closer look at this phenomenon and make several observations. First, we develop an oracle for the value of tokens which exposes a clear Pareto distribution where most tokens have remarkably low value, and just a few carry most of the perceptual information. Second, we analyze why this oracle is extremely hard to learn, as it does not consistently coincide with visual cues. Third, we observe that easy videos need fewer tokens to maintain accuracy. We build on these and further insights to propose a lightweight video model we call LITE that can select a small number of tokens effectively, outperforming state-of-the-art and existing baselines across datasets (Kinetics400 and Something-Something-V2) in the challenging trade-off of computation (GFLOPs) vs accuracy.
Abstract（参考訳）: ビデオ理解は近年大きく進歩し、トランスフォーマーアーキテクチャのパワーに大きく依存している。このアーキテクチャは高価でビデオは非常に冗長であるため、効率を改善する研究が特に重要になっている。これにより、トークンのマージやトークンの選択など、多くのクリエイティブなソリューションが生まれました。ほとんどの手法はモデルのコスト削減と精度維持に成功しているが、興味深いパターンが生じる。本稿では、この現象を詳しく見て、いくつかの観察を行う。まず,ほとんどのトークンが極めて低い値を持ち,ごく少数のトークンが知覚情報のほとんどを担っている,明確なPareto分布を公開するトークンの値のオラクルを開発する。第二に、このオラクルが視覚的手がかりと一貫して一致しないため、なぜ学習が極めて難しいのかを分析する。第3に、簡単なビデオでは正確性を維持するためにトークンが少なくなることを観察する。 LITEは少数のトークンを効果的に選択でき、データセット間のベースライン(Kinetics400とSomething-V2)を、計算の困難なトレードオフ(GFLOPs)と精度で上回ります。

関連論文リスト

VisionThink: Smart and Efficient Vision Language Model via Reinforcement Learning [95.89543460132413]
視覚言語モデル(VLM)は、視覚トークンの数を増やすことで性能を改善した。しかし、現実世界のシナリオの多くは、このような膨大な数の視覚トークンを必要としない。視覚的トークン圧縮(VisionThink)のための新しいパラダイムを提案する。
論文参考訳（メタデータ） (2025-07-17T17:59:55Z)
When Less is Enough: Adaptive Token Reduction for Efficient Image Representation [2.2120851074630177]
より価値の低い特徴を、より価値の高いものから再構築できるという考えに基づいて、特徴ユーティリティを決定する新しい方法を提案する。我々は、オートエンコーダとGumbel-Softmax選択機構を統合することで、この概念を実装した。本結果は,適応的かつ効率的なマルチモーダルプルーニングに向けた有望な方向を示すものである。
論文参考訳（メタデータ） (2025-03-20T19:17:08Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers [32.167072183575925]
本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できる手法を提案する。ビクターは4%未満の精度低下を示し、トレーニング時間を43%削減し、推論スループットを3.3倍に向上させる。
論文参考訳（メタデータ） (2024-10-17T22:45:13Z)
ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文参考訳（メタデータ） (2024-10-10T20:54:15Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文参考訳（メタデータ） (2024-05-16T03:26:06Z)
How can objects help action recognition? [74.29564964727813]
より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
論文参考訳（メタデータ） (2023-06-20T17:56:16Z)
Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文参考訳（メタデータ） (2023-06-08T02:58:15Z)
TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文参考訳（メタデータ） (2021-06-21T17:55:59Z)
DynamicViT: Efficient Vision Transformers with Dynamic Token Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。 DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文参考訳（メタデータ） (2021-06-03T17:57:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。