論文の概要: DEVIAS: Learning Disentangled Video Representations of Action and Scene
for Holistic Video Understanding
- arxiv url: http://arxiv.org/abs/2312.00826v1
- Date: Thu, 30 Nov 2023 18:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:36:59.236069
- Title: DEVIAS: Learning Disentangled Video Representations of Action and Scene
for Holistic Video Understanding
- Title(参考訳): devias: 総合的映像理解のための行動と場面の絡み合った映像表現の学習
- Authors: Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi
- Abstract要約: 本稿では,Distangled VIdeo representations of Action and Scene (DEVIAS) を提案する。
提案手法は,ベースラインと比較して,異なるデータセット間で良好な性能を示す。
- 参考スコア(独自算出の注目度): 3.6444784887770334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When watching a video, humans can naturally extract human actions from the
surrounding scene context, even when action-scene combinations are unusual.
However, unlike humans, video action recognition models often learn
scene-biased action representations from the spurious correlation in training
data, leading to poor performance in out-of-context scenarios. While
scene-debiased models achieve improved performance in out-of-context scenarios,
they often overlook valuable scene information in the data. Addressing this
challenge, we propose Disentangled VIdeo representations of Action and Scene
(DEVIAS), which aims to achieve holistic video understanding. Disentangled
action and scene representations with our method could provide flexibility to
adjust the emphasis on action or scene information depending on downstream task
and dataset characteristics. Disentangled action and scene representations
could be beneficial for both in-context and out-of-context video understanding.
To this end, we employ slot attention to learn disentangled action and scene
representations with a single model, along with auxiliary tasks that further
guide slot attention. We validate the proposed method on both in-context
datasets: UCF-101 and Kinetics-400, and out-of-context datasets: SCUBA and HAT.
Our proposed method shows favorable performance across different datasets
compared to the baselines, demonstrating its effectiveness in diverse video
understanding scenarios.
- Abstract(参考訳): ビデオを見るとき、アクションシーンの組み合わせが珍しい場合でも、人間は周囲のシーンから自然に人間の行動を抽出することができる。
しかし、人間とは異なり、ビデオアクション認識モデルは、トレーニングデータにおけるスプリアス相関から、シーンバイアスのあるアクション表現をしばしば学習し、文脈外のシナリオではパフォーマンスが低下する。
シーン偏りのモデルでは、コンテキスト外のシナリオではパフォーマンスが向上するが、データ内の貴重なシーン情報を見落としてしまうことが多い。
この課題に対処するため,本研究では,包括的映像理解の実現を目的としたDistangled VIdeo representations of Action and Scene (DEVIAS)を提案する。
本手法では,ダウンストリームタスクやデータセットの特性に応じて,アクションやシーン情報に重点を置くための柔軟性が期待できる。
絡み合ったアクションとシーン表現は、コンテキスト内とコンテキスト外の両方のビデオ理解に有益である。
この目的のために,スロットアテンションを用いて,スロットアテンションを誘導する補助タスクとともに,一つのモデルで絡み合った動作やシーンの表現を学習する。
提案手法は, UCF-101 と Kinetics-400 の2つのコンテキスト内データセットと, SCUBA と HAT の両方で検証する。
提案手法は,ベースラインと異なるデータセット間で良好な性能を示し,その効果を多様なビデオ理解シナリオで示す。
関連論文リスト
- Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。
最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。
本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文 参考訳(メタデータ) (2023-05-18T03:53:59Z) - Video-Specific Query-Key Attention Modeling for Weakly-Supervised
Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。
本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文 参考訳(メタデータ) (2023-05-07T04:18:22Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。