論文の概要: DEVIAS: Learning Disentangled Video Representations of Action and Scene
for Holistic Video Understanding
- arxiv url: http://arxiv.org/abs/2312.00826v1
- Date: Thu, 30 Nov 2023 18:58:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 20:36:59.236069
- Title: DEVIAS: Learning Disentangled Video Representations of Action and Scene
for Holistic Video Understanding
- Title(参考訳): devias: 総合的映像理解のための行動と場面の絡み合った映像表現の学習
- Authors: Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi
- Abstract要約: 本稿では,Distangled VIdeo representations of Action and Scene (DEVIAS) を提案する。
提案手法は,ベースラインと比較して,異なるデータセット間で良好な性能を示す。
- 参考スコア(独自算出の注目度): 3.6444784887770334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When watching a video, humans can naturally extract human actions from the
surrounding scene context, even when action-scene combinations are unusual.
However, unlike humans, video action recognition models often learn
scene-biased action representations from the spurious correlation in training
data, leading to poor performance in out-of-context scenarios. While
scene-debiased models achieve improved performance in out-of-context scenarios,
they often overlook valuable scene information in the data. Addressing this
challenge, we propose Disentangled VIdeo representations of Action and Scene
(DEVIAS), which aims to achieve holistic video understanding. Disentangled
action and scene representations with our method could provide flexibility to
adjust the emphasis on action or scene information depending on downstream task
and dataset characteristics. Disentangled action and scene representations
could be beneficial for both in-context and out-of-context video understanding.
To this end, we employ slot attention to learn disentangled action and scene
representations with a single model, along with auxiliary tasks that further
guide slot attention. We validate the proposed method on both in-context
datasets: UCF-101 and Kinetics-400, and out-of-context datasets: SCUBA and HAT.
Our proposed method shows favorable performance across different datasets
compared to the baselines, demonstrating its effectiveness in diverse video
understanding scenarios.
- Abstract(参考訳): ビデオを見るとき、アクションシーンの組み合わせが珍しい場合でも、人間は周囲のシーンから自然に人間の行動を抽出することができる。
しかし、人間とは異なり、ビデオアクション認識モデルは、トレーニングデータにおけるスプリアス相関から、シーンバイアスのあるアクション表現をしばしば学習し、文脈外のシナリオではパフォーマンスが低下する。
シーン偏りのモデルでは、コンテキスト外のシナリオではパフォーマンスが向上するが、データ内の貴重なシーン情報を見落としてしまうことが多い。
この課題に対処するため,本研究では,包括的映像理解の実現を目的としたDistangled VIdeo representations of Action and Scene (DEVIAS)を提案する。
本手法では,ダウンストリームタスクやデータセットの特性に応じて,アクションやシーン情報に重点を置くための柔軟性が期待できる。
絡み合ったアクションとシーン表現は、コンテキスト内とコンテキスト外の両方のビデオ理解に有益である。
この目的のために,スロットアテンションを用いて,スロットアテンションを誘導する補助タスクとともに,一つのモデルで絡み合った動作やシーンの表現を学習する。
提案手法は, UCF-101 と Kinetics-400 の2つのコンテキスト内データセットと, SCUBA と HAT の両方で検証する。
提案手法は,ベースラインと異なるデータセット間で良好な性能を示し,その効果を多様なビデオ理解シナリオで示す。
関連論文リスト
- SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。
前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。
後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文 参考訳(メタデータ) (2023-09-03T20:20:48Z) - What You Say Is What You Show: Visual Narration Detection in
Instructional Videos [108.77600799637172]
本稿では,映像中の行動によってナレーションが視覚的に表現されるか否かを判断する,視覚的ナレーション検出の新たな課題を紹介する。
We propose What You Say is What You Show (WYS2), a method with multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data。
本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。
論文 参考訳(メタデータ) (2023-01-05T21:43:19Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。
本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。
本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-05-11T13:31:15Z) - Toward Accurate Person-level Action Recognition in Videos of Crowded
Scenes [131.9067467127761]
我々は、シーンの情報を完全に活用し、新しいデータを集めることで、アクション認識を改善することに集中する。
具体的には、各フレームの空間的位置を検出するために、強い人間の検出器を採用する。
そして、行動認識モデルを適用して、HIEデータセットとインターネットから多様なシーンを持つ新しいデータの両方でビデオフレームから時間情報を学ぶ。
論文 参考訳(メタデータ) (2020-10-16T13:08:50Z) - Enhancing Unsupervised Video Representation Learning by Decoupling the
Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。
本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文 参考訳(メタデータ) (2020-09-12T09:54:11Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。