論文の概要: Modular Action Concept Grounding in Semantic Video Prediction
- arxiv url: http://arxiv.org/abs/2011.11201v4
- Date: Tue, 26 Apr 2022 13:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:10:01.849996
- Title: Modular Action Concept Grounding in Semantic Video Prediction
- Title(参考訳): セマンティックビデオ予測におけるモジュラーアクション概念のグラウンディング
- Authors: Wei Yu, Wenxin Chen, Songhenh Yin, Steve Easterbrook, Animesh Garg
- Abstract要約: 本稿では,セマンティックアクションラベルを用いてインタラクションを記述するセマンティックアクション条件付きビデオ予測のタスクを紹介する。
様々な視覚的概念学習者の構造的組み合わせによって,各抽象ラベルを具現化する。
提案手法は,新たに設計された2つの合成データセットと1つの実世界のデータセットを用いて評価する。
- 参考スコア(独自算出の注目度): 28.917125574895422
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent works in video prediction have mainly focused on passive forecasting
and low-level action-conditional prediction, which sidesteps the learning of
interaction between agents and objects. We introduce the task of semantic
action-conditional video prediction, which uses semantic action labels to
describe those interactions and can be regarded as an inverse problem of action
recognition. The challenge of this new task primarily lies in how to
effectively inform the model of semantic action information. Inspired by the
idea of Mixture of Experts, we embody each abstract label by a structured
combination of various visual concept learners and propose a novel video
prediction model, Modular Action Concept Network (MAC). Our method is evaluated
on two newly designed synthetic datasets, CLEVR-Building-Blocks and
Sapien-Kitchen, and one real-world dataset called Tower-Creation. Extensive
experiments demonstrate that MAC can correctly condition on given instructions
and generate corresponding future frames without need of bounding boxes. We
further show that the trained model can make out-of-distribution
generalization, be quickly adapted to new object categories and exploit its
learnt features for object detection, showing the progression towards
higher-level cognitive abilities. More visualizations can be found at
http://www.pair.toronto.edu/mac/.
- Abstract(参考訳): ビデオ予測における最近の研究は主に受動的予測と低レベル行動条件予測に焦点を当てており、エージェントとオブジェクトの相互作用の学習を補助している。
本稿では,これらのインタラクションを記述するためにセマンティックアクションラベルを使用するセマンティックアクション条件ビデオ予測のタスクを紹介し,アクション認識の逆問題とみなすことができる。
この新しいタスクの課題は主に、セマンティックアクション情報のモデルに効果的に情報を伝達する方法にある。
様々な視覚的概念学習者の構成された組み合わせによって,各抽象ラベルを具現化し,新しいビデオ予測モデルであるModular Action Concept Network (MAC)を提案する。
提案手法は,CLEVR-Building-Blocks と Sapien-Kitchen という2つの新しい合成データセットと,T Tower-Creation と呼ばれる実世界のデータセットを用いて評価した。
広範な実験により、macは与えられた命令を正しく条件付けし、バウンディングボックスを必要とせずに、対応する将来のフレームを生成することができる。
さらに,訓練されたモデルが分散の一般化を可能にし,新しい対象カテゴリに迅速に適応し,その学習的特徴をオブジェクト検出に活用し,高レベルの認知能力への進歩を示すことを示した。
詳細はhttp://www.pair.toronto.edu/mac/で確認できる。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition [49.45660055499103]
ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。
従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。
強固で頑健な表現を得るために,新たな損失関数サンプリング手法を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:53:01Z) - CoProNN: Concept-based Prototypical Nearest Neighbors for Explaining Vision Models [1.0855602842179624]
ドメインエキスパートが自然言語で直感的にコンピュータビジョンタスクのコンセプトベースの説明を素早く作成できる新しいアプローチを提案する。
CoProNNのモジュラー設計は実装が簡単で、新しいタスクに適応しやすく、分類とテキスト・トゥ・イメージ・モデルを置き換えることができる。
我々の戦略は、粗粒度画像分類タスクにおける他の概念ベースのXAIアプローチと非常によく競合し、さらに細粒度細粒度タスクにおいてそれらの手法よりも優れることを示した。
論文 参考訳(メタデータ) (2024-04-23T08:32:38Z) - Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。
本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。
この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文 参考訳(メタデータ) (2024-01-09T16:16:16Z) - VS-TransGRU: A Novel Transformer-GRU-based Framework Enhanced by
Visual-Semantic Fusion for Egocentric Action Anticipation [33.41226268323332]
エゴセントリックなアクション予測は、一人称視点で将来のアクションを先進的に予測することを目的とした課題である。
既存のほとんどの手法は、視覚入力とリカレントニューラルネットワークに基づくモデルアーキテクチャと損失関数の改善に重点を置いている。
本稿では,新しいビジュアル・セマンティック融合とトランスフォーマーGRUに基づくアクション予測フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-08T06:49:54Z) - Visual Affordance Prediction for Guiding Robot Exploration [56.17795036091848]
我々は,ロボット探索を導くための視覚能力の学習手法を開発した。
VQ-VAEの潜伏埋め込み空間における条件分布の学習にはTransformerベースのモデルを用いる。
本稿では,ロボット操作における視覚的目標条件付きポリシー学習において,目標サンプリング分布として機能することで探索を導くために,トレーニングされた余裕モデルをどのように利用できるかを示す。
論文 参考訳(メタデータ) (2023-05-28T17:53:09Z) - H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding
Object Articulations from Interactions [62.510951695174604]
The Hypothesize, Simulate, Act, Update, and Repeat (H-SAUR) is a probabilistic generative framework that generated hypotheses about objects articulate given input observed。
提案手法は,現在最先端のオブジェクト操作フレームワークよりも優れていることを示す。
我々は、学習に基づく視覚モデルから学習前の学習を統合することにより、H-SAURのテスト時間効率をさらに向上する。
論文 参考訳(メタデータ) (2022-10-22T18:39:33Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - Self-Supervision by Prediction for Object Discovery in Videos [62.87145010885044]
本稿では,この予測タスクを自己監督として利用し,画像シーケンス表現のための新しいオブジェクト中心モデルを構築する。
私たちのフレームワークは、手動アノテーションや事前トレーニングされたネットワークを使わずにトレーニングできます。
最初の実験では、提案されたパイプラインがオブジェクト中心のビデオ予測への有望なステップであることを確認した。
論文 参考訳(メタデータ) (2021-03-09T19:14:33Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。