Fugu-MT 論文翻訳(概要): Learning to Visually Connect Actions and their Effects

論文の概要: Learning to Visually Connect Actions and their Effects

arxiv url: http://arxiv.org/abs/2401.10805v1
Date: Fri, 19 Jan 2024 16:48:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-22 15:07:15.420920
Title: Learning to Visually Connect Actions and their Effects
Title（参考訳）: アクションを視覚的に結びつける学習とその効果
Authors: Eric Peh, Paritosh Parmar, Basura Fernando
Abstract要約: 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。 CATEは、タスク計画やデモからの学習といった分野に応用できる。本稿では,アクション選択やアクション仕様など,CATEに基づくタスクの定式化を提案する。
参考スコア（独自算出の注目度）: 16.094967383744805
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: In this work, we introduce the novel concept of visually Connecting Actions and Their Effects (CATE) in video understanding. CATE can have applications in areas like task planning and learning from demonstration. We propose different CATE-based task formulations, such as action selection and action specification, where video understanding models connect actions and effects at semantic and fine-grained levels. We observe that different formulations produce representations capturing intuitive action properties. We also design various baseline models for action selection and action specification. Despite the intuitive nature of the task, we observe that models struggle, and humans outperform them by a large margin. The study aims to establish a foundation for future efforts, showcasing the flexibility and versatility of connecting actions and effects in video understanding, with the hope of inspiring advanced formulations and models.
Abstract（参考訳）: 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。 CATEは、タスク計画やデモからの学習といった分野に応用できる。本稿では,アクション選択やアクション仕様など,さまざまなcateベースのタスク定式化を提案し,ビデオ理解モデルが意味的および細かなレベルでアクションと効果を関連付ける。異なる定式化が直感的な動作特性を捉えた表現を生み出すことを観察する。また、アクション選択およびアクション仕様のための様々なベースラインモデルも設計する。タスクの直感的な性質にもかかわらず、モデルが苦労し、人間が大きなマージンでそれらを上回ります。本研究は,映像理解における行動と効果の結合の柔軟性と汎用性を実証し,先進的な定式化とモデルの実現を目指して,今後の取り組みの基盤を確立することを目的とする。

関連論文リスト

ActionCOMET: A Zero-shot Approach to Learn Image-specific Commonsense Concepts about Actions [66.20773952864802]
我々は8.5k画像と59.3k画像に接地されたアクションに関する59.3kの推論からなるデータセットを開発する。本稿では、提供された視覚入力に特有の言語モデルに存在する知識を識別するフレームワークであるActionCOMETを提案する。
論文参考訳（メタデータ） (2024-10-17T15:22:57Z)
Implicit Affordance Acquisition via Causal Action-Effect Modeling in the Video Domain [5.188825486231326]
近年の知見は,大規模な自己指導型事前学習を通じて世界知識が生まれることを示唆している。モデルにおける2つの価格特性の獲得を促進するための2つの新しい事前訓練タスクを提案する。提案手法の有効性を実証的に実証した。
論文参考訳（メタデータ） (2023-12-18T16:51:26Z)
Early Action Recognition with Action Prototypes [62.826125870298306]
本稿では,各クラスに対するフルアクションのプロトタイプ表現を学習する新しいモデルを提案する。映像を短いクリップに分解し、視覚エンコーダがそれぞれのクリップから特徴を独立して抽出する。その後、デコーダは、最終クラスの予測のために、すべてのクリップからオンラインのファッション機能として集約される。
論文参考訳（メタデータ） (2023-12-11T18:31:13Z)
Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文参考訳（メタデータ） (2022-12-07T03:36:37Z)
Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。 SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文参考訳（メタデータ） (2021-11-23T03:29:18Z)
CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文参考訳（メタデータ） (2021-04-30T05:46:02Z)
Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文参考訳（メタデータ） (2021-03-29T14:37:35Z)
Modular Action Concept Grounding in Semantic Video Prediction [28.917125574895422]
本稿では,セマンティックアクションラベルを用いてインタラクションを記述するセマンティックアクション条件付きビデオ予測のタスクを紹介する。様々な視覚的概念学習者の構造的組み合わせによって,各抽象ラベルを具現化する。提案手法は,新たに設計された2つの合成データセットと1つの実世界のデータセットを用いて評価する。
論文参考訳（メタデータ） (2020-11-23T04:12:22Z)
MS$^2$L: Multi-Task Self-Supervised Learning for Skeleton Based Action Recognition [36.74293548921099]
動作予測,ジグソーパズル認識,コントラスト学習を統合し,異なる側面から骨格の特徴を学習する。 NW-UCLA, NTU RGB+D, PKUMMDデータセットを用いた実験は, 行動認識における顕著な性能を示した。
論文参考訳（メタデータ） (2020-10-12T11:09:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。