Fugu-MT 論文翻訳(概要): Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

論文の概要: Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens

arxiv url: http://arxiv.org/abs/2206.06346v1
Date: Mon, 13 Jun 2022 17:45:05 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-14 15:56:49.199043
Title: Bringing Image Scene Structure to Video via Frame-Clip Consistency of Object Tokens
Title（参考訳）: オブジェクトトークンのフレームクリップ一貫性による映像シーン構造の実現
Authors: Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna Rohrbach, Leonid Karlinsky, Trevor Darrell, Amir Globerson
Abstract要約: StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。 SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
参考スコア（独自算出の注目度）: 93.98605636451806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent action recognition models have achieved impressive results by integrating objects, their locations and interactions. However, obtaining dense structured annotations for each frame is tedious and time-consuming, making these methods expensive to train and less scalable. At the same time, if a small set of annotated images is available, either within or outside the domain of interest, how could we leverage these for a video downstream task? We propose a learning framework StructureViT (SViT for short), which demonstrates how utilizing the structure of a small number of images only available during training can improve a video model. SViT relies on two key insights. First, as both images and videos contain structured information, we enrich a transformer model with a set of \emph{object tokens} that can be used across images and videos. Second, the scene representations of individual frames in video should "align" with those of still images. This is achieved via a \emph{Frame-Clip Consistency} loss, which ensures the flow of structured information between images and videos. We explore a particular instantiation of scene structure, namely a \emph{Hand-Object Graph}, consisting of hands and objects with their locations as nodes, and physical relations of contact/no-contact as edges. SViT shows strong performance improvements on multiple video understanding tasks and datasets; and it wins first place in the Ego4D CVPR'22 Object State Localization challenge. For code and pretrained models, visit the project page at \url{https://eladb3.github.io/SViT/}
Abstract（参考訳）: 最近の行動認識モデルは、オブジェクト、それらの位置、相互作用を統合することで印象的な結果を得た。しかし、各フレームに対して厳密な構造化アノテーションを取得するのは面倒で時間を要するため、これらのメソッドはトレーニングコストが高く、スケーラビリティも低い。同時に、関心領域内外を問わず、注釈付き画像の小さなセットが利用可能であれば、これをビデオ下流タスクに活用するにはどうすればよいのか? 学習フレームワークStructureViT(略してSViT)を提案し、トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善する方法を示す。 SViTは2つの重要な洞察に依存している。まず、画像とビデオの両方に構造化情報が含まれているため、画像とビデオにまたがって使用できる「emph{object tokens}」セットのトランスフォーマーモデルを統合する。第二に、動画中の個々のフレームのシーン表現は静止画と「一致」すべきである。これは、画像とビデオ間の構造化情報の流れを保証する \emph{frame-clip consistency} 損失によって達成される。場面構造の特定のインスタンス化、すなわち、手と物体がノードとして位置し、接点/非接点がエッジとして物理的関係からなる、\emph{hand-object graph} を探索する。 SViTは、複数のビデオ理解タスクとデータセットで強力なパフォーマンス向上を示しており、Ego4D CVPR'22 Object State Localizationチャレンジで優勝している。コードと事前訓練されたモデルについては、プロジェクトページの \url{https://eladb3.github.io/SViT/} を参照してください。

関連論文リスト

Moving Off-the-Grid: Scene-Grounded Video Representations [44.13534423774967]
自己教師型ビデオ表現モデルであるO Off-the-Grid (MooG) を提示する。 MooGはトークンを"オフ・ザ・グリッド"に移動させ、シーン要素を一貫して表現できるようにします。我々は,MooGが「オン・ザ・グリッド」ベースラインと比較して,異なるビジョンタスクの強力な基盤を提供することを示す。
論文参考訳（メタデータ） (2024-11-08T19:26:51Z)
Multi-entity Video Transformers for Fine-Grained Video Representation Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文参考訳（メタデータ） (2023-11-17T21:23:12Z)
UnLoc: A Unified Framework for Video Localization Tasks [82.59118972890262]
UnLocは、未トリミングビデオにおける時間的ローカライズのための新しいアプローチである。事前訓練された画像とテキストタワーを使用し、トークンをビデオテキスト融合モデルに供給する。我々は,3つの異なるローカライゼーションタスクに対して,統一的なアプローチで成果を達成している。
論文参考訳（メタデータ） (2023-08-21T22:15:20Z)
CoDeF: Content Deformation Fields for Temporally Consistent Video Processing [86.25225894085105]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文参考訳（メタデータ） (2023-08-15T17:59:56Z)
Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。 Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文参考訳（メタデータ） (2022-12-06T18:59:58Z)
Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022 [93.98605636451806]
本報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善することができる学習フレームワークを提案する。 SViTは、0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
論文参考訳（メタデータ） (2022-06-15T17:36:38Z)
HODOR: High-level Object Descriptors for Object Re-segmentation in Video Learned from Static Images [123.65233334380251]
オブジェクトの外観やシーンコンテキストを理解するために,注釈付き静的イメージを効果的に活用する新しい手法であるHODORを提案する。その結果、HODORはDAVISとYouTube-VOSベンチマークで最先端のパフォーマンスを達成した。アーキテクチャの変更なしに、HODORは単一の注釈付きビデオフレームに関するビデオコンテキストから学ぶこともできる。
論文参考訳（メタデータ） (2021-12-16T18:59:53Z)
Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-04-01T17:48:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。