論文の概要: CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties
via Video Question Answering
- arxiv url: http://arxiv.org/abs/2211.03779v1
- Date: Mon, 7 Nov 2022 18:55:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:24:09.578430
- Title: CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties
via Video Question Answering
- Title(参考訳): CRIPP-VQA:ビデオ質問応答による不適切な物性の逆推論
- Authors: Maitreya Patel and Tejas Gokhale and Chitta Baral and Yezhou Yang
- Abstract要約: CRIPP-VQA(CRIPP-VQA)は、シーン内のオブジェクトの暗黙的な物理的特性を推論するための新しいビデオ質問応答データセットである。
CRIPP-VQAには、動作中の物体のビデオが含まれており、反事実的推論に関わる疑問が注がれている。
実験の結果,暗黙的特性に関する疑問に答える上で,驚くべき,重要なパフォーマンスギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 50.61988087577871
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Videos often capture objects, their visible properties, their motion, and the
interactions between different objects. Objects also have physical properties
such as mass, which the imaging pipeline is unable to directly capture.
However, these properties can be estimated by utilizing cues from relative
object motion and the dynamics introduced by collisions. In this paper, we
introduce CRIPP-VQA, a new video question answering dataset for reasoning about
the implicit physical properties of objects in a scene. CRIPP-VQA contains
videos of objects in motion, annotated with questions that involve
counterfactual reasoning about the effect of actions, questions about planning
in order to reach a goal, and descriptive questions about visible properties of
objects. The CRIPP-VQA test set enables evaluation under several
out-of-distribution settings -- videos with objects with masses, coefficients
of friction, and initial velocities that are not observed in the training
distribution. Our experiments reveal a surprising and significant performance
gap in terms of answering questions about implicit properties (the focus of
this paper) and explicit properties of objects (the focus of prior work).
- Abstract(参考訳): ビデオは、しばしばオブジェクト、その可視性、動き、そして異なるオブジェクト間の相互作用をキャプチャする。
物体は質量などの物理的性質を持ち、撮像パイプラインを直接捉えることができない。
しかし、これらの性質は相対的な物体の動きと衝突によって引き起こされる力学の手がかりを利用して推定できる。
本稿では,シーン内のオブジェクトの暗黙的な物理的特性を推論するビデオ質問応答データセットであるCRIPP-VQAを紹介する。
CRIPP-VQAには、動作中のオブジェクトのビデオが含まれており、アクションの効果に関する反事実的推論、目標に到達するための計画に関する質問、オブジェクトの可視性に関する記述的な質問が含まれている。
CRIPP-VQAテストセットは、トレーニング分布で観測されていない質量、摩擦係数、初期速度の動画を含む、いくつかのアウト・オブ・ディストリビューション・セッティングでの評価を可能にする。
実験の結果,対象の暗黙的特性(本論文の焦点)と明示的特性(先行作業の焦点)に関する疑問に答える上で,驚くべき,重要なパフォーマンスギャップが明らかとなった。
関連論文リスト
- AI-based Density Recognition [7.106165417217771]
本稿では、関連画像を用いて物体に物理的特性を割り当てるAIベースの概念を提案する。
ニューラルネットワークを用いて2次元画像から特定のパターンを抽出し、ボリューム、材料、密度などのさらなる情報を抽出する。
論文 参考訳(メタデータ) (2024-07-24T07:45:37Z) - ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos [113.2646904729092]
目に見える性質と隠れた性質の間の構成性は、物理的な世界から推論するAIモデルに固有の課題をもたらす。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,視覚知覚,物理特性学習,動的予測,記号実行を組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルニューラルシンボリックフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-02T17:59:13Z) - Video Action Detection: Analysing Limitations and Challenges [70.01260415234127]
ビデオ行動検出における既存のデータセットを分析し,その限界について議論する。
静的画像から映像を区別する重要な特性である時間的側面を解析するバイアスネススタディを実行する。
このような極端な実験は、注意深いモデリングを必要とする既存の手法に忍び込んだバイアスの存在を示している。
論文 参考訳(メタデータ) (2022-04-17T00:42:14Z) - Hierarchical Object-oriented Spatio-Temporal Reasoning for Video
Question Answering [27.979053252431306]
Video Question Answering (ビデオQA)は、新しいAI機能を開発するための強力なテストベッドである。
本稿では,対話するオブジェクトの動的ストリームとして動画を抽象化するオブジェクト指向推論手法を提案する。
このメカニズムは汎用神経ユニットのファミリーと多層アーキテクチャに実体化されている。
論文 参考訳(メタデータ) (2021-06-25T05:12:42Z) - Grounding Physical Concepts of Objects and Events Through Dynamic Visual
Reasoning [84.90458333884443]
本稿では、物理オブジェクトやイベントをビデオや言語から基盤とする統合フレームワークであるDynamic Concept Learner(DCL)を紹介する。
dclは、フレーム、グランドビジュアルプロパティ、物理イベントのオブジェクトを検出し、関連付けることができ、イベント間の因果関係を理解し、将来の予測と偽りの予測を行い、これらのプレゼンテーションをクエリに利用することができる。
DCLは、地上トラス属性や衝突ラベルをトレーニング用シミュレーションから使用することなく、困難な因果的ビデオ推論データセットであるCLEVRERで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-30T17:59:48Z) - Object Properties Inferring from and Transfer for Human Interaction
Motions [51.896592493436984]
本稿では,人間のインタラクション動作のみからオブジェクト特性を推測する,きめ細かい動作認識手法を提案する。
我々は、慣性モーションキャプチャー装置を用いて、演奏者の多数のビデオと3D骨格の動きを収集する。
特に, 相互作用対象の重み, 脆弱性, デリカシーを推定することにより, 相互作用対象の同定を学習する。
論文 参考訳(メタデータ) (2020-08-20T14:36:34Z) - Location-aware Graph Convolutional Networks for Video Question Answering [85.44666165818484]
そこで本研究では,ビデオ中のコンテンツを位置認識グラフとして表現することを提案する。
構築したグラフに基づいて,動作のカテゴリと時間的位置の両方を推測するためにグラフ畳み込みを提案する。
提案手法は,TGIF-QA,Youtube2Text-QA,MSVD-QAデータセットにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-08-07T02:12:56Z) - Foldover Features for Dynamic Object Behavior Description in Microscopic
Videos [4.194890536348037]
顕微鏡映像における動的物体の挙動を記述するために, 折り畳み機能を提案する。
実験では、1374種の精子を含む3種類の折り畳み機能の評価のために、精子顕微鏡ビデオデータセットを用いて行った。
論文 参考訳(メタデータ) (2020-03-19T08:39:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。