論文の概要: Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens
- arxiv url: http://arxiv.org/abs/2206.06346v2
- Date: Wed, 15 Jun 2022 16:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 12:56:30.337775
- Title: Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens
- Title(参考訳): オブジェクトトークンのフレームクリップ一貫性による映像シーン構造の実現
- Authors: Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna
Rohrbach, Leonid Karlinsky, Trevor Darrell, Amir Globerson
- Abstract要約: StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
- 参考スコア(独自算出の注目度): 93.98605636451806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent action recognition models have achieved impressive results by
integrating objects, their locations and interactions. However, obtaining dense
structured annotations for each frame is tedious and time-consuming, making
these methods expensive to train and less scalable. At the same time, if a
small set of annotated images is available, either within or outside the domain
of interest, how could we leverage these for a video downstream task? We
propose a learning framework StructureViT (SViT for short), which demonstrates
how utilizing the structure of a small number of images only available during
training can improve a video model. SViT relies on two key insights. First, as
both images and videos contain structured information, we enrich a transformer
model with a set of \emph{object tokens} that can be used across images and
videos. Second, the scene representations of individual frames in video should
"align" with those of still images. This is achieved via a \emph{Frame-Clip
Consistency} loss, which ensures the flow of structured information between
images and videos. We explore a particular instantiation of scene structure,
namely a \emph{Hand-Object Graph}, consisting of hands and objects with their
locations as nodes, and physical relations of contact/no-contact as edges. SViT
shows strong performance improvements on multiple video understanding tasks and
datasets. Furthermore, it won in the Ego4D CVPR'22 Object State Localization
challenge. For code and pretrained models, visit the project page at
\url{https://eladb3.github.io/SViT/}
- Abstract(参考訳): 最近の行動認識モデルは、オブジェクト、それらの位置、相互作用を統合することで印象的な結果を得た。
しかし、各フレームに対して厳密な構造化アノテーションを取得するのは面倒で時間を要するため、これらのメソッドはトレーニングコストが高く、スケーラビリティも低い。
同時に、関心領域内外を問わず、注釈付き画像の小さなセットが利用可能であれば、これをビデオ下流タスクに活用するにはどうすればよいのか?
学習フレームワークStructureViT(略してSViT)を提案し、トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善する方法を示す。
SViTは2つの重要な洞察に依存している。
まず、画像とビデオの両方に構造化情報が含まれているため、画像とビデオにまたがって使用できる「emph{object tokens}」セットのトランスフォーマーモデルを統合する。
第二に、動画中の個々のフレームのシーン表現は静止画と「一致」すべきである。
これは、画像とビデオ間の構造化情報の流れを保証する \emph{frame-clip consistency} 損失によって達成される。
場面構造の特定のインスタンス化、すなわち、手と物体がノードとして位置し、接点/非接点がエッジとして物理的関係からなる、\emph{hand-object graph} を探索する。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
さらに、Ego4D CVPR'22 Object State Localization Challengeで優勝した。
コードと事前訓練されたモデルについては、プロジェクトページの \url{https://eladb3.github.io/SViT/} を参照してください。
関連論文リスト
- Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。
事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。
我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文 参考訳(メタデータ) (2023-08-21T22:15:20Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022 [93.98605636451806]
本報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。
トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善することができる学習フレームワークを提案する。
SViTは、0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
論文 参考訳(メタデータ) (2022-06-15T17:36:38Z) - HODOR: High-level Object Descriptors for Object Re-segmentation in Video
Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。
その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。
アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文 参考訳(メタデータ) (2021-12-16T18:59:53Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。