論文の概要: How can objects help action recognition?
- arxiv url: http://arxiv.org/abs/2306.11726v1
- Date: Tue, 20 Jun 2023 17:56:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 13:07:09.386237
- Title: How can objects help action recognition?
- Title(参考訳): オブジェクトはどのようにアクション認識に役立つか?
- Authors: Xingyi Zhou, Anurag Arnab, Chen Sun, Cordelia Schmid
- Abstract要約: より優れたビデオモデルを設計するために、オブジェクトの知識をどのように利用できるかを検討する。
まず,入力トークンの少数の保持が可能なオブジェクト誘導型トークンサンプリング戦略を提案する。
第二に、オブジェクト情報で特徴表現を豊かにするオブジェクト認識アテンションモジュールを提案する。
- 参考スコア(独自算出の注目度): 74.29564964727813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current state-of-the-art video models process a video clip as a long sequence
of spatio-temporal tokens. However, they do not explicitly model objects, their
interactions across the video, and instead process all the tokens in the video.
In this paper, we investigate how we can use knowledge of objects to design
better video models, namely to process fewer tokens and to improve recognition
accuracy. This is in contrast to prior works which either drop tokens at the
cost of accuracy, or increase accuracy whilst also increasing the computation
required. First, we propose an object-guided token sampling strategy that
enables us to retain a small fraction of the input tokens with minimal impact
on accuracy. And second, we propose an object-aware attention module that
enriches our feature representation with object information and improves
overall accuracy. Our resulting framework achieves better performance when
using fewer tokens than strong baselines. In particular, we match our baseline
with 30%, 40%, and 60% of the input tokens on SomethingElse,
Something-something v2, and Epic-Kitchens, respectively. When we use our model
to process the same number of tokens as our baseline, we improve by 0.6 to 4.2
points on these datasets.
- Abstract(参考訳): 現在の最先端ビデオモデルは、ビデオクリップを時空間トークンの長いシーケンスとして処理する。
しかし、ビデオを通してオブジェクトやインタラクションを明示的にモデル化するのではなく、ビデオ内のすべてのトークンを処理する。
本稿では,オブジェクトの知識を用いて,より優れたビデオモデル,すなわち少ないトークン処理と認識精度の向上を実現する方法について検討する。
これは、トークンを精度の犠牲に落としたり、必要な計算量を増やしながら精度を高めたりする以前の作業とは対照的である。
まず,入力トークンのごく一部を精度への影響を最小限に抑えることを可能にする,オブジェクト誘導トークンサンプリング戦略を提案する。
次に,特徴表現をオブジェクト情報で豊かにし,全体的な精度を向上させるオブジェクト認識アテンションモジュールを提案する。
結果として得られるフレームワークは、強力なベースラインよりも少ないトークンを使用する場合のパフォーマンスが向上します。
特に、私たちのベースラインは、それぞれwhatelse、 something-something v2、epic-kitchensの入力トークンの30%、40%、60%と一致しています。
我々のモデルを使ってベースラインと同じ数のトークンを処理すると、これらのデータセットの0.6から4.2ポイントが改善されます。
関連論文リスト
- Principles of Visual Tokens for Efficient Video Understanding [36.05950369461622]
ビデオ理解は近年大きく進歩し、トランスフォーマーアーキテクチャのパワーに大きく依存している。
これにより、トークンのマージやトークンの選択など、多くのクリエイティブなソリューションが生まれました。
ほとんどの手法はモデルのコスト削減と精度維持に成功しているが、興味深いパターンが生じる。
我々はLITEと呼ばれる軽量ビデオモデルを提案し、少数のトークンを効果的に選択し、GFLOP(State-of-the-art calculation)と精度に優れる。
論文 参考訳(メタデータ) (2024-11-20T14:09:47Z) - Efficient Vision-Language Models by Summarizing Visual Tokens into Compact Registers [32.167072183575925]
本稿では,より小さなレジスタトークン集合に要約することで,視覚トークンの数を削減できる手法を提案する。
ビクターは4%未満の精度低下を示し、トレーニング時間を43%削減し、推論スループットを3.3倍に向上させる。
論文 参考訳(メタデータ) (2024-10-17T22:45:13Z) - ElasticTok: Adaptive Tokenization for Image and Video [109.75935878130582]
我々は、フレームを可変数のトークンに適応的にエンコードする、事前のフレームを条件付けするElasticTokを紹介する。
推論中、ElasticTokは必要に応じてトークンを動的に割り当てる。
画像とビデオに対する評価は,トークンの有効利用におけるアプローチの有効性を示すものである。
論文 参考訳(メタデータ) (2024-10-10T20:54:15Z) - SparseVLM: Visual Token Sparsification for Efficient Vision-Language Model Inference [45.11612407862277]
視覚言語モデル(VLM)では、視覚トークンは通常かなりの計算オーバーヘッドを消費する。
本稿では、余分なパラメータや微調整コストを伴わずに、SparseVLMと呼ばれる効率的なトレーニングフリートークン最適化機構を提案する。
実験結果から,SparseVLMは画像理解タスクや映像理解タスクにおいて,様々なVLMの効率を向上することが示された。
論文 参考訳(メタデータ) (2024-10-06T09:18:04Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Efficient Video Action Detection with Token Dropout and Context
Refinement [67.10895416008911]
効率的なビデオアクション検出(ViT)のためのエンドツーエンドフレームワークを提案する。
ビデオクリップでは、他のフレームからのアクターの動きに関連するトークンを保存しながら、その視点でトークンを維持する。
第二に、残ったトークンを利用してシーンコンテキストを洗練し、アクターのアイデンティティをよりよく認識する。
論文 参考訳(メタデータ) (2023-04-17T17:21:21Z) - TokenLearner: What Can 8 Learned Tokens Do for Images and Videos? [89.17394772676819]
適応的に学習したトークンに頼った新しい視覚表現学習を導入する。
本実験は,画像認識と画像認識の両タスクにおいて,いくつかの困難なベンチマークで高い性能を示した。
論文 参考訳(メタデータ) (2021-06-21T17:55:59Z) - DynamicViT: Efficient Vision Transformers with Dynamic Token
Sparsification [134.9393799043401]
入力に基づいて冗長なトークンを抽出する動的トークンスペーシフィケーションフレームワークを提案する。
入力トークンの66%を階層的にプルーニングすることで,FLOPの31%37%を大幅に削減し,スループットを40%以上向上する。
DynamicViTモデルは、ImageNetの最先端CNNやビジョントランスフォーマーと比較して、非常に競争力のある複雑性/精度のトレードオフを実現することができる。
論文 参考訳(メタデータ) (2021-06-03T17:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。