論文の概要: DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding
- arxiv url: http://arxiv.org/abs/2312.00826v2
- Date: Thu, 11 Jul 2024 06:32:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 23:37:48.567058
- Title: DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding
- Title(参考訳): DEVIAS: ホロスティックビデオ理解のためのアンタングル映像表現学習
- Authors: Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi,
- Abstract要約: 本稿では,Distangled VIdeo representations of Action and Scene (DEVIAS) を提案する。
提案手法は,ベースラインと比較して,異なるデータセット間で良好な性能を示す。
- 参考スコア(独自算出の注目度): 3.336126457178601
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When watching a video, humans can naturally extract human actions from the surrounding scene context, even when action-scene combinations are unusual. However, unlike humans, video action recognition models often learn scene-biased action representations from the spurious correlation in training data, leading to poor performance in out-of-context scenarios. While scene-debiased models achieve improved performance in out-of-context scenarios, they often overlook valuable scene information in the data. Addressing this challenge, we propose Disentangled VIdeo representations of Action and Scene (DEVIAS), which aims to achieve holistic video understanding. Disentangled action and scene representations with our method could provide flexibility to adjust the emphasis on action or scene information depending on downstream task and dataset characteristics. Disentangled action and scene representations could be beneficial for both in-context and out-of-context video understanding. To this end, we employ slot attention to learn disentangled action and scene representations with a single model, along with auxiliary tasks that further guide slot attention. We validate the proposed method on both in-context datasets: UCF-101 and Kinetics-400, and out-of-context datasets: SCUBA and HAT. Our proposed method shows favorable performance across different datasets compared to the baselines, demonstrating its effectiveness in diverse video understanding scenarios.
- Abstract(参考訳): ビデオを見るとき、アクションとシーンの組み合わせが珍しいときでも、人間は周囲のシーンのコンテキストから自然に人間の行動を抽出することができる。
しかしながら、人間とは異なり、ビデオアクション認識モデルは、トレーニングデータの急激な相関からシーンバイアスされたアクション表現を学習することが多く、文脈外のシナリオではパフォーマンスが低下する。
シーン偏りのモデルでは、コンテキスト外のシナリオではパフォーマンスが向上するが、データ内の貴重なシーン情報を見落としてしまうことが多い。
この課題に対処するため,本研究では,包括的ビデオ理解の実現を目的とした,Distangled VIdeo representations of Action and Scene (DEVIAS)を提案する。
本手法では,ダウンストリームタスクやデータセットの特性に応じて,アクションやシーン情報に重点を置くための柔軟性が期待できる。
アンタングル化されたアクションとシーン表現は、コンテキスト内とコンテキスト外の両方の理解に有用である。
この目的のために、スロットアテンションを用いて、スロットアテンションをさらにガイドする補助タスクとともに、1つのモデルで非交叉アクションとシーン表現を学習する。
提案手法は, UCF-101 と Kinetics-400 の2つのコンテキスト内データセットと, SCUBA と HAT の2つのコンテキスト外データセットで検証する。
提案手法は,ベースラインと異なるデータセット間で良好な性能を示し,その効果を多様なビデオ理解シナリオで示す。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。