論文の概要: Learning to Visually Connect Actions and their Effects
- arxiv url: http://arxiv.org/abs/2401.10805v3
- Date: Fri, 26 Jul 2024 16:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-29 18:31:34.064188
- Title: Learning to Visually Connect Actions and their Effects
- Title(参考訳): アクションを視覚的に接続する学習とその効果
- Authors: Paritosh Parmar, Eric Peh, Basura Fernando,
- Abstract要約: 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
CATEは、ラベルのないビデオからビデオ表現を学習するための効果的な自己教師型タスクであることを示す。
- 参考スコア(独自算出の注目度): 14.733204402684215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce the novel concept of visually Connecting Actions and Their Effects (CATE) in video understanding. CATE can have applications in areas like task planning and learning from demonstration. We identify and explore two different aspects of the concept of CATE: Action Selection (AS) and Effect-Affinity Assessment (EAA), where video understanding models connect actions and effects at semantic and fine-grained levels, respectively. We design various baseline models for AS and EAA. Despite the intuitive nature of the task, we observe that models struggle, and humans outperform them by a large margin. Our experiments show that in solving AS and EAA, models learn intuitive properties like object tracking and pose encoding without explicit supervision. We demonstrate that CATE can be an effective self-supervised task for learning video representations from unlabeled videos. The study aims to showcase the fundamental nature and versatility of CATE, with the hope of inspiring advanced formulations and models.
- Abstract(参考訳): 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
CATEの概念の2つの異なる側面:アクション選択(AS)とエフェクト親和性評価(EAA)。
我々はASとESAのための様々なベースラインモデルを設計する。
このタスクの直感的な性質にもかかわらず、モデルが苦しむのを観察し、人間は大きなマージンでそれらを上回ります。
実験の結果,AS と EAA を解く場合,モデルはオブジェクト追跡などの直感的な特性を学習し,明示的な監督を伴わずに符号化を行うことがわかった。
CATEは、ラベルのないビデオからビデオ表現を学習するための効果的な自己教師型タスクであることを示す。
この研究は、先進的な定式化とモデルに刺激を与えることを期待して、CATEの基本的な性質と汎用性を実証することを目的としている。
関連論文リスト
- ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。
本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文 参考訳(メタデータ) (2024-10-17T15:22:57Z) - Implicit Affordance Acquisition via Causal Action-Effect Modeling in the
Video Domain [5.188825486231326]
近年の知見は,大規模な自己指導型事前学習を通じて世界知識が生まれることを示唆している。
モデルにおける2つの価格特性の獲得を促進するための2つの新しい事前訓練タスクを提案する。
提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-18T16:51:26Z) - Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。
映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。
その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文 参考訳(メタデータ) (2023-12-11T18:31:13Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Modular Action Concept Grounding in Semantic Video Prediction [28.917125574895422]
本稿では,セマンティックアクションラベルを用いてインタラクションを記述するセマンティックアクション条件付きビデオ予測のタスクを紹介する。
様々な視覚的概念学習者の構造的組み合わせによって,各抽象ラベルを具現化する。
提案手法は,新たに設計された2つの合成データセットと1つの実世界のデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-23T04:12:22Z) - MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action
Recognition [36.74293548921099]
動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。
NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
論文 参考訳(メタデータ) (2020-10-12T11:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。