論文の概要: DEVIAS: Learning Disentangled Video Representations of Action and Scene
- arxiv url: http://arxiv.org/abs/2312.00826v3
- Date: Fri, 6 Sep 2024 07:42:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 20:53:23.480556
- Title: DEVIAS: Learning Disentangled Video Representations of Action and Scene
- Title(参考訳): DEVIAS: 身近なアクションとシーンの動画表現を学習する
- Authors: Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi,
- Abstract要約: ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。
本稿では,アンタングル型エンコーダデコーダアーキテクチャを提案し,単一のモデルを用いてアンタングル型アクションとシーン表現を学習する。
提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。
- 参考スコア(独自算出の注目度): 3.336126457178601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video recognition models often learn scene-biased action representation due to the spurious correlation between actions and scenes in the training data. Such models show poor performance when the test data consists of videos with unseen action-scene combinations. Although scene-debiased action recognition models might address the issue, they often overlook valuable scene information in the data. To address this challenge, we propose to learn DisEntangled VIdeo representations of Action and Scene (DEVIAS), for more holistic video understanding. We propose an encoder-decoder architecture to learn disentangled action and scene representations with a single model. The architecture consists of a disentangling encoder (DE), an action mask decoder (AMD), and a prediction head. The key to achieving the disentanglement is employing both DE and AMD during training time. The DE uses the slot attention mechanism to learn disentangled action and scene representations. For further disentanglement, an AMD learns to predict action masks, given an action slot. With the resulting disentangled representations, we can achieve robust performance across diverse scenarios, including both seen and unseen action-scene combinations. We rigorously validate the proposed method on the UCF-101, Kinetics-400, and HVU datasets for the seen, and the SCUBA, HAT, and HVU datasets for unseen action-scene combination scenarios. Furthermore, DEVIAS provides flexibility to adjust the emphasis on action or scene information depending on dataset characteristics for downstream tasks. DEVIAS shows favorable performance in various downstream tasks: Diving48, Something-Something-V2, UCF-101, and ActivityNet. The code is available at https://github.com/KHU-VLL/DEVIAS.
- Abstract(参考訳): ビデオ認識モデルは、トレーニングデータにおけるアクションとシーンの急激な相関により、シーンバイアスのアクション表現を学習することが多い。
このようなモデルでは、テストデータが目に見えないアクションシーンの組み合わせを持つビデオで構成されている場合、パフォーマンスが低下する。
シーンに偏ったアクション認識モデルはこの問題に対処するかもしれないが、彼らはしばしばデータ内の貴重なシーン情報を見落としている。
この課題に対処するために、より包括的なビデオ理解のために、DisEntangled VIdeo representations of Action and Scene (DEVIAS) を学習することを提案する。
本研究では,1つのモデルを用いてアンタングル化されたアクションとシーン表現を学習するためのエンコーダ・デコーダアーキテクチャを提案する。
アーキテクチャはディエンタングルエンコーダ(DE)、アクションマスクデコーダ(AMD)、予測ヘッドで構成される。
障害を克服する鍵は、トレーニング期間中にDEとAMDの両方を採用することである。
DEはスロットアテンション機構を使用して、アンタングルされたアクションとシーン表現を学習する。
さらなる混乱のために、AMDはアクションスロットを与えられたアクションマスクを予測することを学ぶ。
結果として生じるアンタングル表現により、目に見えないアクションとシーンの組み合わせを含む、さまざまなシナリオで堅牢なパフォーマンスを実現できます。
提案手法は,UCF-101,Kinetics-400,HVUの各データセットと,SCUBA,HAT,HVUの各データセットに対して厳密に検証した。
さらに、DEVIASは、下流タスクのデータセット特性に応じてアクションやシーン情報に重点を置く柔軟性を提供する。
DEVIASは、Diving48、Something-V2、UCF-101、ActivityNetなど、さまざまなダウンストリームタスクで好ましいパフォーマンスを示している。
コードはhttps://github.com/KHU-VLL/DEVIASで公開されている。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。