Fugu-MT 論文翻訳(概要): DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding

論文の概要: DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding

arxiv url: http://arxiv.org/abs/2312.00826v1
Date: Thu, 30 Nov 2023 18:58:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-05 20:36:59.236069
Title: DEVIAS: Learning Disentangled Video Representations of Action and Scene for Holistic Video Understanding
Title（参考訳）: devias: 総合的映像理解のための行動と場面の絡み合った映像表現の学習
Authors: Kyungho Bae, Geo Ahn, Youngrae Kim, Jinwoo Choi
Abstract要約: 本稿では,Distangled VIdeo representations of Action and Scene (DEVIAS) を提案する。提案手法は,ベースラインと比較して,異なるデータセット間で良好な性能を示す。
参考スコア（独自算出の注目度）: 3.6444784887770334
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When watching a video, humans can naturally extract human actions from the surrounding scene context, even when action-scene combinations are unusual. However, unlike humans, video action recognition models often learn scene-biased action representations from the spurious correlation in training data, leading to poor performance in out-of-context scenarios. While scene-debiased models achieve improved performance in out-of-context scenarios, they often overlook valuable scene information in the data. Addressing this challenge, we propose Disentangled VIdeo representations of Action and Scene (DEVIAS), which aims to achieve holistic video understanding. Disentangled action and scene representations with our method could provide flexibility to adjust the emphasis on action or scene information depending on downstream task and dataset characteristics. Disentangled action and scene representations could be beneficial for both in-context and out-of-context video understanding. To this end, we employ slot attention to learn disentangled action and scene representations with a single model, along with auxiliary tasks that further guide slot attention. We validate the proposed method on both in-context datasets: UCF-101 and Kinetics-400, and out-of-context datasets: SCUBA and HAT. Our proposed method shows favorable performance across different datasets compared to the baselines, demonstrating its effectiveness in diverse video understanding scenarios.
Abstract（参考訳）: ビデオを見るとき、アクションシーンの組み合わせが珍しい場合でも、人間は周囲のシーンから自然に人間の行動を抽出することができる。しかし、人間とは異なり、ビデオアクション認識モデルは、トレーニングデータにおけるスプリアス相関から、シーンバイアスのあるアクション表現をしばしば学習し、文脈外のシナリオではパフォーマンスが低下する。シーン偏りのモデルでは、コンテキスト外のシナリオではパフォーマンスが向上するが、データ内の貴重なシーン情報を見落としてしまうことが多い。この課題に対処するため,本研究では,包括的映像理解の実現を目的としたDistangled VIdeo representations of Action and Scene (DEVIAS)を提案する。本手法では,ダウンストリームタスクやデータセットの特性に応じて,アクションやシーン情報に重点を置くための柔軟性が期待できる。絡み合ったアクションとシーン表現は、コンテキスト内とコンテキスト外の両方のビデオ理解に有益である。この目的のために,スロットアテンションを用いて,スロットアテンションを誘導する補助タスクとともに,一つのモデルで絡み合った動作やシーンの表現を学習する。提案手法は, UCF-101 と Kinetics-400 の2つのコンテキスト内データセットと, SCUBA と HAT の両方で検証する。提案手法は,ベースラインと異なるデータセット間で良好な性能を示し,その効果を多様なビデオ理解シナリオで示す。

関連論文リスト

Unified Video Action Model [47.88377984526902]
統合されたビデオとアクションモデルは、アクション予測のためのリッチなシーン情報を提供するロボット工学にとって重要な約束である。我々は,映像とアクションの予測を協調的に最適化し,高精度かつ効率的なアクション推論を実現するUnified Video Action Model (UVA)を提案する。広範な実験により、UVAは幅広いロボティクスタスクの汎用的なソリューションとして機能できることが実証された。
論文参考訳（メタデータ） (2025-02-28T21:38:17Z)
Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文参考訳（メタデータ） (2023-12-11T18:31:13Z)
SOAR: Scene-debiasing Open-set Action Recognition [81.8198917049666]
本稿では、対向的なシーン再構成モジュールと適応的な対向的なシーン分類モジュールを備えた、Scene-debiasing Open-set Action Recognition (SOAR)を提案する。前者は、デコーダが映像特徴の映像背景を再構成することを防止し、特徴学習における背景情報を低減する。後者は、アクションフォアグラウンドに特に重点を置いて、映像の特徴を与えられたシーンタイプの分類を混乱させることを目的としており、シーン不変情報を学習するのに役立つ。
論文参考訳（メタデータ） (2023-09-03T20:20:48Z)
Paxion: Patching Action Knowledge in Video-Language Foundation Models [112.92853632161604]
行動知識は、行動のテキスト的、視覚的、時間的側面を理解することを含む。最近のビデオ言語モデルの様々なベンチマークタスクにおける印象的なパフォーマンスは、アクション知識の驚くべき不足(ほぼランダムなパフォーマンス)を明らかにしている。本稿では,DVDM(Dis discriminative Video Dynamics Modeling)の新たな目的とともに,新しいフレームワークPaxionを提案する。
論文参考訳（メタデータ） (2023-05-18T03:53:59Z)
Video-Specific Query-Key Attention Modeling for Weakly-Supervised Temporal Action Localization [14.43055117008746]
弱いトリミングされた時間的アクションローカライゼーションは、ビデオレベルのアクションラベルのみを用いて、教師なしビデオ内のアクションインスタンスを特定し、ローカライズすることを目的としている。本稿では,VQK-Netという名前のネットワークを提案する。ビデオ固有のクエリキーアテンションモデリングにより,各ビデオのアクションカテゴリ毎にユニークなクエリを学習する。
論文参考訳（メタデータ） (2023-05-07T04:18:22Z)
Scene Consistency Representation Learning for Video Scene Segmentation [26.790491577584366]
本稿では,長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。本稿では,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法について検討する。本手法は,映像シーンのタスクにおける最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2022-05-11T13:31:15Z)
ASCNet: Self-supervised Video Representation Learning with Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文参考訳（メタデータ） (2021-06-04T08:44:50Z)
CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文参考訳（メタデータ） (2021-04-30T05:46:02Z)
Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion [86.56202610716504]
アクションカテゴリは、アクションが発生するシーンと非常に関連しているため、モデルが、シーン情報のみを符号化したソリューションに分解する傾向がある。本稿では,シーンと動き(DSM)を2つの簡単な操作で分離し,動き情報に対するモデル注意がより高いようにすることを提案する。
論文参考訳（メタデータ） (2020-09-12T09:54:11Z)
Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文参考訳（メタデータ） (2020-01-16T08:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。