論文の概要: Learning to Visually Connect Actions and their Effects
- arxiv url: http://arxiv.org/abs/2401.10805v1
- Date: Fri, 19 Jan 2024 16:48:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 15:07:15.420920
- Title: Learning to Visually Connect Actions and their Effects
- Title(参考訳): アクションを視覚的に結びつける学習とその効果
- Authors: Eric Peh, Paritosh Parmar, Basura Fernando
- Abstract要約: 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
本稿では,アクション選択やアクション仕様など,CATEに基づくタスクの定式化を提案する。
- 参考スコア(独自算出の注目度): 16.094967383744805
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this work, we introduce the novel concept of visually Connecting Actions
and Their Effects (CATE) in video understanding. CATE can have applications in
areas like task planning and learning from demonstration. We propose different
CATE-based task formulations, such as action selection and action
specification, where video understanding models connect actions and effects at
semantic and fine-grained levels. We observe that different formulations
produce representations capturing intuitive action properties. We also design
various baseline models for action selection and action specification. Despite
the intuitive nature of the task, we observe that models struggle, and humans
outperform them by a large margin. The study aims to establish a foundation for
future efforts, showcasing the flexibility and versatility of connecting
actions and effects in video understanding, with the hope of inspiring advanced
formulations and models.
- Abstract(参考訳): 本稿では,映像理解における視覚的結合行動とその効果(CATE)について紹介する。
CATEは、タスク計画やデモからの学習といった分野に応用できる。
本稿では,アクション選択やアクション仕様など,さまざまなcateベースのタスク定式化を提案し,ビデオ理解モデルが意味的および細かなレベルでアクションと効果を関連付ける。
異なる定式化が直感的な動作特性を捉えた表現を生み出すことを観察する。
また、アクション選択およびアクション仕様のための様々なベースラインモデルも設計する。
タスクの直感的な性質にもかかわらず、モデルが苦労し、人間が大きなマージンでそれらを上回ります。
本研究は,映像理解における行動と効果の結合の柔軟性と汎用性を実証し,先進的な定式化とモデルの実現を目指して,今後の取り組みの基盤を確立することを目的とする。
関連論文リスト
- Implicit Affordance Acquisition via Causal Action-Effect Modeling in the
Video Domain [5.188825486231326]
近年の知見は,大規模な自己指導型事前学習を通じて世界知識が生まれることを示唆している。
モデルにおける2つの価格特性の獲得を促進するための2つの新しい事前訓練タスクを提案する。
提案手法の有効性を実証的に実証した。
論文 参考訳(メタデータ) (2023-12-18T16:51:26Z) - LALM: Long-Term Action Anticipation with Language Models [74.10147822693791]
言語モデル(LALM)を用いた長期的行動予測のための新しいアプローチを提案する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果、LALMは長期的な行動予測のタスクにおいて最先端の手法を超越していることが示された。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - Learning Action-Effect Dynamics from Pairs of Scene-graphs [50.72283841720014]
本稿では,画像のシーングラフ表現を利用して,自然言語で記述された行動の効果を推論する手法を提案する。
提案手法は,既存のモデルと比較して,性能,データ効率,一般化能力の点で有効である。
論文 参考訳(メタデータ) (2022-12-07T03:36:37Z) - Task Formulation Matters When Learning Continually: A Case Study in
Visual Question Answering [58.82325933356066]
継続的な学習は、以前の知識を忘れずに、一連のタスクでモデルを漸進的にトレーニングすることを目的としている。
本稿では,視覚的質問応答において,異なる設定がパフォーマンスに与える影響について詳細に検討する。
論文 参考訳(メタデータ) (2022-09-30T19:12:58Z) - Procedure Planning in Instructional Videosvia Contextual Modeling and
Model-based Policy Learning [114.1830997893756]
本研究は,実生活ビデオにおける目標指向アクションを計画するモデルを学習することに焦点を当てる。
本研究では,ベイズ推論とモデルに基づく模倣学習を通して,人間の行動のモデル化を行う新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-10-05T01:06:53Z) - Unified Graph Structured Models for Video Understanding [93.72081456202672]
リレーショナル・テンポラル関係を明示的にモデル化するメッセージパッシンググラフニューラルネットワークを提案する。
本手法は,シーン内の関連エンティティ間の関係をより効果的にモデル化できることを示す。
論文 参考訳(メタデータ) (2021-03-29T14:37:35Z) - Modular Action Concept Grounding in Semantic Video Prediction [28.917125574895422]
本稿では,セマンティックアクションラベルを用いてインタラクションを記述するセマンティックアクション条件付きビデオ予測のタスクを紹介する。
様々な視覚的概念学習者の構造的組み合わせによって,各抽象ラベルを具現化する。
提案手法は,新たに設計された2つの合成データセットと1つの実世界のデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-11-23T04:12:22Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Learning intuitive physics and one-shot imitation using
state-action-prediction self-organizing maps [0.0]
人間は探索と模倣によって学び、世界の因果モデルを構築し、両方を使って新しいタスクを柔軟に解決する。
このような特徴を生み出す単純だが効果的な教師なしモデルを提案する。
エージェントがアクティブな推論スタイルで柔軟に解決する、複数の関連するが異なる1ショットの模倣タスクに対して、その性能を示す。
論文 参考訳(メタデータ) (2020-07-03T12:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。