論文の概要: ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos
- arxiv url: http://arxiv.org/abs/2311.01620v1
- Date: Thu, 2 Nov 2023 22:17:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-06 15:51:24.901572
- Title: ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos
- Title(参考訳): ACQUIRED:実生活の動画で相手の質問に答えるデータセット
- Authors: Te-Lin Wu, Zi-Yi Dou, Qingyuan Hu, Yu Hou, Nischal Reddy Chandra,
Marjorie Freedman, Ralph M. Weischedel, Nanyun Peng
- Abstract要約: ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
- 参考スコア(独自算出の注目度): 53.92440577914417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal counterfactual reasoning is a vital yet challenging ability for AI
systems. It involves predicting the outcomes of hypothetical circumstances
based on vision and language inputs, which enables AI models to learn from
failures and explore hypothetical scenarios. Despite its importance, there are
only a few datasets targeting the counterfactual reasoning abilities of
multimodal models. Among them, they only cover reasoning over synthetic
environments or specific types of events (e.g. traffic collisions), making them
hard to reliably benchmark the model generalization ability in diverse
real-world scenarios and reasoning dimensions. To overcome these limitations,
we develop a video question answering dataset, ACQUIRED: it consists of 3.9K
annotated videos, encompassing a wide range of event types and incorporating
both first and third-person viewpoints, which ensures a focus on real-world
diversity. In addition, each video is annotated with questions that span three
distinct dimensions of reasoning, including physical, social, and temporal,
which can comprehensively evaluate the model counterfactual abilities along
multiple aspects. We benchmark our dataset against several state-of-the-art
language-only and multimodal models and experimental results demonstrate a
significant performance gap (>13%) between models and humans. The findings
suggest that multimodal counterfactual reasoning remains an open challenge and
ACQUIRED is a comprehensive and reliable benchmark for inspiring future
research in this direction.
- Abstract(参考訳): マルチモーダルカウンターファクト推論は、AIシステムにとって不可欠だが困難な能力である。
視覚と言語入力に基づいて仮説的状況の結果を予測することを含み、AIモデルは失敗から学び、仮説的シナリオを探索することができる。
その重要性にもかかわらず、マルチモーダルモデルの反実的推論能力をターゲットにしたデータセットはわずかである。
それらのうち、合成環境や特定の種類のイベント(交通衝突など)の推論のみをカバーするため、様々な現実世界のシナリオや推論次元においてモデルの一般化能力を確実にベンチマークすることは困難である。
この制約を克服するため,我々は3.9kの注釈付きビデオで構成され,多種多様なイベントタイプを包含し,第1者視点と第3者視点の両方を取り入れ,実世界の多様性に焦点をあてたビデオ質問応答データセットを開発した。
さらに、各ビデオは、物理的、社会的、時間的を含む3つの異なる推論の次元にまたがる質問で注釈付けされ、複数の側面に沿ってモデル反事実能力を包括的に評価することができる。
我々は,最先端言語のみおよびマルチモーダルモデルに対してデータセットをベンチマークし,実験結果から,モデルと人間の間に有意な性能差(>13%)が示された。
この結果は、マルチモーダルな反ファクト推論は依然としてオープンな課題であり、ACQUIREDは今後の研究を刺激するための総合的で信頼性の高いベンチマークであることを示している。
関連論文リスト
- Grounded Question-Answering in Long Egocentric Videos [46.405314250324]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。
このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。
提案手法は, (i) クエリグラウンドディングと応答を統一モデルに統合し, エラー伝搬を低減すること, (ii) 大規模言語モデルを用いて効率的でスケーラブルなデータ合成を行うこと, (iii) 評価のためのクローズドなQAタスクを導入することにより, これらの課題に対処する。
論文 参考訳(メタデータ) (2023-12-11T16:31:55Z) - What If the TV Was Off? Examining Counterfactual Reasoning Abilities of
Multi-modal Language Models [23.400550319038118]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。
このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。
このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文 参考訳(メタデータ) (2023-10-10T13:45:59Z) - Causal Triplet: An Open Challenge for Intervention-centric Causal
Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。
この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文 参考訳(メタデータ) (2023-01-12T17:43:38Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Logically at the Factify 2022: Multimodal Fact Verification [2.8914815569249823]
本稿では,AAAI 2022におけるマルチモーダル事実検証(Factify)課題の参加者システムについて述べる。
アンサンブルモデルとマルチモーダルアテンションネットワークを含む2つのベースラインアプローチを提案し,検討した。
我々の最良モデルは、検証セットとテストセットの両方において、重み付き平均F値が0.77となるリーダーボードで第1位にランクされている。
論文 参考訳(メタデータ) (2021-12-16T23:34:07Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文 参考訳(メタデータ) (2020-08-31T15:31:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。