論文の概要: Grounding Physical Concepts of Objects and Events Through Dynamic Visual
Reasoning
- arxiv url: http://arxiv.org/abs/2103.16564v1
- Date: Tue, 30 Mar 2021 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:40:21.891378
- Title: Grounding Physical Concepts of Objects and Events Through Dynamic Visual
Reasoning
- Title(参考訳): 動的視覚推論による物体と事象の物理概念の接地
- Authors: Zhenfang Chen, Jiayuan Mao, Jiajun Wu, Kwan-Yee Kenneth Wong, Joshua
B. Tenenbaum, Chuang Gan
- Abstract要約: 本稿では、物理オブジェクトやイベントをビデオや言語から基盤とする統合フレームワークであるDynamic Concept Learner(DCL)を紹介する。
dclは、フレーム、グランドビジュアルプロパティ、物理イベントのオブジェクトを検出し、関連付けることができ、イベント間の因果関係を理解し、将来の予測と偽りの予測を行い、これらのプレゼンテーションをクエリに利用することができる。
DCLは、地上トラス属性や衝突ラベルをトレーニング用シミュレーションから使用することなく、困難な因果的ビデオ推論データセットであるCLEVRERで最先端のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 84.90458333884443
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: We study the problem of dynamic visual reasoning on raw videos. This is a
challenging problem; currently, state-of-the-art models often require dense
supervision on physical object properties and events from simulation, which are
impractical to obtain in real life. In this paper, we present the Dynamic
Concept Learner (DCL), a unified framework that grounds physical objects and
events from video and language. DCL first adopts a trajectory extractor to
track each object over time and to represent it as a latent, object-centric
feature vector. Building upon this object-centric representation, DCL learns to
approximate the dynamic interaction among objects using graph networks. DCL
further incorporates a semantic parser to parse questions into semantic
programs and, finally, a program executor to run the program to answer the
question, levering the learned dynamics model. After training, DCL can detect
and associate objects across the frames, ground visual properties, and physical
events, understand the causal relationship between events, make future and
counterfactual predictions, and leverage these extracted presentations for
answering queries. DCL achieves state-of-the-art performance on CLEVRER, a
challenging causal video reasoning dataset, even without using ground-truth
attributes and collision labels from simulations for training. We further test
DCL on a newly proposed video-retrieval and event localization dataset derived
from CLEVRER, showing its strong generalization capacity.
- Abstract(参考訳): 生ビデオにおける動的視覚的推論の問題について検討する。
これは難しい問題であり、現在最先端のモデルでは、しばしば実生活では得られない物理的物体の性質やシミュレーションからの事象を厳密に監視する必要がある。
本稿では,映像と言語から物理オブジェクトとイベントを対象とする統合フレームワークであるdynamic concept learner(dcl)について述べる。
DCLはまず軌道抽出器を採用し、時間とともに各オブジェクトを追跡し、潜在的、オブジェクト中心の特徴ベクトルとして表現する。
このオブジェクト中心表現に基づいて、DCLはグラフネットワークを用いてオブジェクト間の動的相互作用を近似することを学ぶ。
さらに、dclにはセマンティックパーサが組み込まれており、質問をセマンティックプログラムに解析し、最終的にプログラム実行者がプログラムを実行して質問に答え、学習したダイナミクスモデルをレバーする。
トレーニング後、dclはフレーム間のオブジェクトの検出と関連付け、イベント間の因果関係の理解、未来と反事実の予測、これらの抽出したプレゼンテーションをクエリへの応答に活用することができる。
dclは、トレーニングのシミュレーションから地上属性や衝突ラベルを使わずに、挑戦的な因果的ビデオ推論データセットであるclevrerで最先端のパフォーマンスを達成している。
さらに,新たに提案するclevrerから派生したビデオリトライバルおよびイベントローカライズデータセット上でdclをテストし,その強力な一般化能力を示した。
関連論文リスト
- 1st Place Solution for MOSE Track in CVPR 2024 PVUW Workshop: Complex Video Object Segmentation [72.54357831350762]
本稿では,ビデオオブジェクトのセグメンテーションモデルを提案する。
我々は大規模ビデオオブジェクトセグメンテーションデータセットを用いてモデルを訓練した。
我々のモデルは、複雑なビデオオブジェクトチャレンジのテストセットで1位(textbf84.45%)を達成した。
論文 参考訳(メタデータ) (2024-06-07T03:13:46Z) - Appearance-based Refinement for Object-Centric Motion Segmentation [95.80420062679104]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では, 正確な流量予測マスクを模範として, 簡単な選択機構を用いる。
パフォーマンスは、DAVIS、YouTubeVOS、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in
Clutter [14.489086924126253]
本研究は, 乱雑な場面において, 自然言語で参照される物体のつかみポーズを予測する, つかみ合成を参照する作業に焦点をあてる。
既存のアプローチでは、参照対象をまずセグメント化し、適切な把握を提案し、自然屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価される。
本稿では,CLIPの視覚的接地機能を利用して,画像とテキストのペアから直接合成を学習する新しいエンド・ツー・エンド・モデル(CROG)を提案する。
論文 参考訳(メタデータ) (2023-11-09T22:55:10Z) - Kinematic-aware Prompting for Generalizable Articulated Object
Manipulation with LLMs [53.66070434419739]
汎用的なオブジェクト操作は、ホームアシストロボットにとって不可欠である。
本稿では,物体のキネマティックな知識を持つ大規模言語モデルに対して,低レベル動作経路を生成するキネマティック・アウェア・プロンプト・フレームワークを提案する。
我々のフレームワークは8つのカテゴリで従来の手法よりも優れており、8つの未確認対象カテゴリに対して強力なゼロショット能力を示している。
論文 参考訳(メタデータ) (2023-11-06T03:26:41Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Leveraging Next-Active Objects for Context-Aware Anticipation in
Egocentric Videos [31.620555223890626]
短期オブジェクト間相互作用予測(STA)の問題点について検討する。
本稿では,マルチモーダル・エンド・ツー・エンド・トランスフォーマー・ネットワークであるNAOGATを提案する。
我々のモデルは2つの異なるデータセット上で既存の手法より優れている。
論文 参考訳(メタデータ) (2023-08-16T12:07:02Z) - SlotFormer: Unsupervised Visual Dynamics Simulation with Object-Centric
Models [30.313085784715575]
学習対象時間表現に基づくトランスフォーマーに基づく自己回帰モデルであるSlotFormerを紹介する。
本稿では,複雑なオブジェクト相互作用を持つデータセットの予測にSlotFormerをうまく適用する。
また,このようなタスクに特化して設計された手法と競合する,モデルベース計画の世界モデルとして機能する能力を示す。
論文 参考訳(メタデータ) (2022-10-12T01:53:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。