論文の概要: Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022
- arxiv url: http://arxiv.org/abs/2206.07689v1
- Date: Wed, 15 Jun 2022 17:36:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-16 14:10:50.489430
- Title: Structured Video Tokens @ Ego4D PNR Temporal Localization Challenge 2022
- Title(参考訳): Ego4D PNRの時間的ローカライゼーションチャレンジ2022
- Authors: Elad Ben-Avraham, Roei Herzig, Karttikeya Mangalam, Amir Bar, Anna
Rohrbach, Leonid Karlinsky, Trevor Darrell, Amir Globerson
- Abstract要約: 本報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。
トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善することができる学習フレームワークを提案する。
SViTは、0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
- 参考スコア(独自算出の注目度): 93.98605636451806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This technical report describes the SViT approach for the Ego4D Point of No
Return (PNR) Temporal Localization Challenge. We propose a learning framework
StructureViT (SViT for short), which demonstrates how utilizing the structure
of a small number of images only available during training can improve a video
model. SViT relies on two key insights. First, as both images and videos
contain structured information, we enrich a transformer model with a set of
\emph{object tokens} that can be used across images and videos. Second, the
scene representations of individual frames in video should "align" with those
of still images. This is achieved via a "Frame-Clip Consistency" loss, which
ensures the flow of structured information between images and videos. SViT
obtains strong performance on the challenge test set with 0.656 absolute
temporal localization error.
- Abstract(参考訳): この技術報告では、Ego4D Point of No Return (PNR) におけるSViTアプローチについて述べる。
学習フレームワークStructureViT(略してSViT)を提案し、トレーニング中にのみ利用できる少数の画像の構造を利用することで、ビデオモデルを改善する方法を示す。
SViTは2つの重要な洞察に依存している。
まず、画像とビデオの両方に構造化情報が含まれているため、画像とビデオにまたがって使用できる「emph{object tokens}」セットのトランスフォーマーモデルを統合する。
第二に、動画中の個々のフレームのシーン表現は静止画と「一致」すべきである。
これは、画像とビデオ間の構造化情報の流れを保証する「フレームクリップ一貫性」損失によって達成される。
SViTは0.656の絶対時間的局所化誤差を持つチャレンジテストセットで強い性能を得る。
関連論文リスト
- CoDeF: Content Deformation Fields for Temporally Consistent Video
Processing [89.49585127724941]
CoDeFは、標準コンテンツフィールドと時間変形フィールドからなる新しいタイプのビデオ表現である。
実験により,CoDeFは,映像から映像への変換とキーポイント検出をキーポイントトラッキングに,トレーニングなしで持ち上げることができることを示した。
論文 参考訳(メタデータ) (2023-08-15T17:59:56Z) - Rerender A Video: Zero-Shot Text-Guided Video-to-Video Translation [93.18163456287164]
本稿では,動画に画像モデルを適用するための新しいテキスト誘導型動画翻訳フレームワークを提案する。
我々のフレームワークは,グローバルなスタイルと局所的なテクスチャの時間的一貫性を低コストで実現している。
論文 参考訳(メタデータ) (2023-06-13T17:52:23Z) - VicTR: Video-conditioned Text Representations for Activity Recognition [73.09929391614266]
より優れたビデオVLMは、視覚情報よりもテキストの強化に重点を置くことで設計できる、と我々は主張する。
本稿では,ビデオ条件付きテキスト表現(VicTR)を紹介する。
我々のモデルは、視覚的に接地された補助テキストという形で、自由に利用できるセマンティック情報を利用することができる。
論文 参考訳(メタデータ) (2023-04-05T16:30:36Z) - Bringing Image Scene Structure to Video via Frame-Clip Consistency of
Object Tokens [93.98605636451806]
StructureViTは、トレーニング中にのみ利用可能な少数の画像の構造を利用することで、ビデオモデルを改善する方法を示している。
SViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2022-06-13T17:45:05Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Frozen in Time: A Joint Video and Image Encoder for End-to-End Retrieval [80.7397409377659]
大規模画像と映像キャプションの両方のデータセットを利用した,エンドツーエンドのトレーニング可能なモデルを提案する。
私たちのモデルは柔軟で、画像とビデオの両方のテキストデータセットで、独立に、または同時にトレーニングできます。
この手法は,標準ダウンストリームビデオリトライバルベンチマークにおいて最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-04-01T17:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。