論文の概要: PACS: A Dataset for Physical Audiovisual CommonSense Reasoning
- arxiv url: http://arxiv.org/abs/2203.11130v1
- Date: Mon, 21 Mar 2022 17:05:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 13:40:31.543864
- Title: PACS: A Dataset for Physical Audiovisual CommonSense Reasoning
- Title(参考訳): PACS:物理オーディオ常識推論のためのデータセット
- Authors: Samuel Yu, Peter Wu, Paul Pu Liang, Ruslan Salakhutdinov,
Louis-Philippe Morency
- Abstract要約: 本稿では,物理コモンセンス属性にアノテートされた最初のオーディオヴィジュアル・ベンチマークPACSについて述べる。
PACSには13,400の質問対があり、1,377のユニークな物理コモンセンス質問と1,526の動画が含まれている。
PACSを用いて,新しい課題に対して複数の最先端モデルを評価する。
- 参考スコア(独自算出の注目度): 119.0100966278682
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In order for AI to be safely deployed in real-world scenarios such as
hospitals, schools, and the workplace, they should be able to reason about the
physical world by understanding the physical properties and affordances of
available objects, how they can be manipulated, and how they interact with
other physical objects. This research field of physical commonsense reasoning
is fundamentally a multi-sensory task since physical properties are manifested
through multiple modalities, two of them being vision and acoustics. Our paper
takes a step towards real-world physical commonsense reasoning by contributing
PACS: the first audiovisual benchmark annotated for physical commonsense
attributes. PACS contains a total of 13,400 question-answer pairs, involving
1,377 unique physical commonsense questions and 1,526 videos. Our dataset
provides new opportunities to advance the research field of physical reasoning
by bringing audio as a core component of this multimodal problem. Using PACS,
we evaluate multiple state-of-the-art models on this new challenging task.
While some models show promising results (70% accuracy), they all fall short of
human performance (95% accuracy). We conclude the paper by demonstrating the
importance of multimodal reasoning and providing possible avenues for future
research.
- Abstract(参考訳): aiを病院、学校、職場などの現実世界のシナリオに安全に展開するためには、利用可能なオブジェクトの物理的特性と余裕を理解し、どのように操作し、どのように他の物理的オブジェクトと相互作用するかを理解することで、物理的な世界について判断することができるべきである。
この物理コモンセンス推論の研究分野は、物理的特性が複数のモーダルを通して表されるため、基本的には多感覚課題である。
本論文は,物理コモンセンス属性にアノテートされた最初のオーディオ視覚的ベンチマークであるPACSの提供により,実世界の物理コモンセンス推論への一歩を踏み出した。
PACSには13,400の質問対があり、1,377のユニークな物理コモンセンス質問と1,526の動画が含まれている。
当社のデータセットは、このマルチモーダル問題のコアコンポーネントとしてオーディオを導入することで、物理推論の研究分野を前進させる新たな機会を提供します。
PACSを用いて,新しい課題に対して複数の最先端モデルを評価する。
有望な結果(70%の精度)を示すモデルもあるが、いずれも人間のパフォーマンス(95%の精度)に欠けている。
本稿では,マルチモーダル推論の重要性を実証し,今後の研究への道筋を示す。
関連論文リスト
- Compositional Physical Reasoning of Objects and Events from Videos [122.6862357340911]
本稿では,物体の動きや相互作用から隠れた物理的特性を推定するという課題に対処する。
我々は、ComPhyの最先端ビデオ推論モデルを評価し、これらの隠れプロパティをキャプチャする限られた能力を明らかにする。
また,視覚的および隠れた物理的特性を学習し,原因を解明する,新しいニューロシンボリックな枠組みであるPhysical Concept Reasoner(PCR)を提案する。
論文 参考訳(メタデータ) (2024-08-02T15:19:55Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - ComPhy: Compositional Physical Reasoning of Objects and Events from
Videos [113.2646904729092]
目に見える性質と隠れた性質の間の構成性は、物理的な世界から推論するAIモデルに固有の課題をもたらす。
ビデオ推論に関する既存の研究は、主に物体の外観、動き、接触相互作用などの視覚的に観察可能な要素に焦点を当てている。
本稿では,視覚知覚,物理特性学習,動的予測,記号実行を組み合わせた,構成物理学学習(CPL)と呼ばれるオラクルニューラルシンボリックフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-02T17:59:13Z) - Video Sentiment Analysis with Bimodal Information-augmented Multi-Head
Attention [7.997124140597719]
本研究では,複数のモダリティの時系列データを含むビデオの感情分析に注目する。
重要な問題は、これらの異種データをどのように融合するかです。
バイモーダル相互作用に基づいて、より重要なバイモーダル特徴はより大きな重みが割り当てられる。
論文 参考訳(メタデータ) (2021-03-03T12:30:11Z) - ThreeDWorld: A Platform for Interactive Multi-Modal Physical Simulation [75.0278287071591]
ThreeDWorld (TDW) はインタラクティブなマルチモーダル物理シミュレーションのためのプラットフォームである。
TDWは、リッチな3D環境において、高忠実な感覚データのシミュレーションと、移動体エージェントとオブジェクト間の物理的相互作用を可能にする。
我々は、コンピュータビジョン、機械学習、認知科学における新たな研究方向において、TDWによって実現された初期実験を提示する。
論文 参考訳(メタデータ) (2020-07-09T17:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。