Fugu-MT 論文翻訳(概要): ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos

論文の概要: ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos

arxiv url: http://arxiv.org/abs/2311.01620v1
Date: Thu, 2 Nov 2023 22:17:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-06 15:51:24.901572
Title: ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life Videos
Title（参考訳）: ACQUIRED:実生活の動画で相手の質問に答えるデータセット
Authors: Te-Lin Wu, Zi-Yi Dou, Qingyuan Hu, Yu Hou, Nischal Reddy Chandra, Marjorie Freedman, Ralph M. Weischedel, Nanyun Peng
Abstract要約: ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
参考スコア（独自算出の注目度）: 53.92440577914417
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal counterfactual reasoning is a vital yet challenging ability for AI systems. It involves predicting the outcomes of hypothetical circumstances based on vision and language inputs, which enables AI models to learn from failures and explore hypothetical scenarios. Despite its importance, there are only a few datasets targeting the counterfactual reasoning abilities of multimodal models. Among them, they only cover reasoning over synthetic environments or specific types of events (e.g. traffic collisions), making them hard to reliably benchmark the model generalization ability in diverse real-world scenarios and reasoning dimensions. To overcome these limitations, we develop a video question answering dataset, ACQUIRED: it consists of 3.9K annotated videos, encompassing a wide range of event types and incorporating both first and third-person viewpoints, which ensures a focus on real-world diversity. In addition, each video is annotated with questions that span three distinct dimensions of reasoning, including physical, social, and temporal, which can comprehensively evaluate the model counterfactual abilities along multiple aspects. We benchmark our dataset against several state-of-the-art language-only and multimodal models and experimental results demonstrate a significant performance gap (>13%) between models and humans. The findings suggest that multimodal counterfactual reasoning remains an open challenge and ACQUIRED is a comprehensive and reliable benchmark for inspiring future research in this direction.
Abstract（参考訳）: マルチモーダルカウンターファクト推論は、AIシステムにとって不可欠だが困難な能力である。視覚と言語入力に基づいて仮説的状況の結果を予測することを含み、AIモデルは失敗から学び、仮説的シナリオを探索することができる。その重要性にもかかわらず、マルチモーダルモデルの反実的推論能力をターゲットにしたデータセットはわずかである。それらのうち、合成環境や特定の種類のイベント(交通衝突など)の推論のみをカバーするため、様々な現実世界のシナリオや推論次元においてモデルの一般化能力を確実にベンチマークすることは困難である。この制約を克服するため,我々は3.9kの注釈付きビデオで構成され,多種多様なイベントタイプを包含し,第1者視点と第3者視点の両方を取り入れ,実世界の多様性に焦点をあてたビデオ質問応答データセットを開発した。さらに、各ビデオは、物理的、社会的、時間的を含む3つの異なる推論の次元にまたがる質問で注釈付けされ、複数の側面に沿ってモデル反事実能力を包括的に評価することができる。我々は,最先端言語のみおよびマルチモーダルモデルに対してデータセットをベンチマークし,実験結果から,モデルと人間の間に有意な性能差(>13%)が示された。この結果は、マルチモーダルな反ファクト推論は依然としてオープンな課題であり、ACQUIREDは今後の研究を刺激するための総合的で信頼性の高いベンチマークであることを示している。

関連論文リスト

HV-MMBench: Benchmarking MLLMs for Human-Centric Video Understanding [79.06209664703258]
MLLM(Multimodal Large Language Models)は、画像とビデオの両方を含む視覚的理解タスクにおいて、大きな進歩を見せている。既存の人間中心のベンチマークは、主にビデオ生成の品質と行動認識を強調し、人間中心のシナリオに必要な知覚と認知の能力を見落としている。我々は,人間中心のビデオ理解におけるMLLMのより総合的な評価を提供するために,厳格にキュレートされたベンチマークを提案する。
論文参考訳（メタデータ） (2025-07-07T11:52:24Z)
CausalVQA: A Physically Grounded Causal Reasoning Benchmark for Video Models [4.889577550694335]
CausalVQAはビデオ質問応答(VQA)のためのベンチマークデータセットであるそれは、物理的世界の因果関係に対するモデルの理解を調査する質問と回答のペアで構成されている。
論文参考訳（メタデータ） (2025-06-11T17:10:36Z)
DriveLMM-o1: A Step-by-Step Reasoning Dataset and Large Multimodal Model for Driving Scenario Understanding [76.3876070043663]
自律運転のための段階的視覚的推論を推し進めるためのデータセットとベンチマークであるDriveLMM-o1を提案する。私たちのベンチマークでは、トレーニングセットに18k以上のVQAサンプル、テストセットに4k以上、知覚、予測、計画に関するさまざまな質問をカバーしています。我々のモデルは、最終回答精度が+7.49%向上し、以前の最高のオープンソースモデルよりも3.62%向上した。
論文参考訳（メタデータ） (2025-03-13T17:59:01Z)
Eureka: Evaluating and Understanding Large Foundation Models [23.020996995362104]
Eurekaは、シングルスコアのレポートやランキングを超えて、大規模な基盤モデルの評価を標準化するためのオープンソースのフレームワークです。我々は、12の最先端モデルを分析し、失敗理解とモデル比較に関する詳細な洞察を提供する。
論文参考訳（メタデータ） (2024-09-13T18:01:49Z)
HEMM: Holistic Evaluation of Multimodal Foundation Models [91.60364024897653]
マルチモーダル・ファンデーション・モデルは、画像、ビデオ、オーディオ、その他の知覚モダリティと共にテキストをホリスティックに処理することができる。モデリング決定、タスク、ドメインの範囲を考えると、マルチモーダル基盤モデルの進歩を特徴づけ、研究することは困難である。
論文参考訳（メタデータ） (2024-07-03T18:00:48Z)
WorldQA: Multimodal World Knowledge in Videos through Long-Chain Reasoning [49.72868038180909]
マルチモーダル世界モデルの境界を押し上げるために設計されたビデオデータセットであるWorldQAを紹介する。質問の定式化に不可欠な5つの世界知識を同定する。我々は、専門家の知識をコヒーレントな推論チェーンに合成するためのエージェントであるWorldRetrieverを紹介する。
論文参考訳（メタデータ） (2024-05-06T08:42:34Z)
Grounded Question-Answering in Long Egocentric Videos [39.281013854331285]
長い、エゴセントリックなビデオで、個人やロボットが自分の過去の視覚的体験について尋ねることができる。このタスクは、広範囲なビデオコンテンツ内での時間的グラウンドクエリの複雑さを含む、ユニークな課題を提示する。提案手法は,クエリグラウンディングと応答を統一モデルに統合することにより,誤りの伝播を低減することで,これらの課題に対処する。
論文参考訳（メタデータ） (2023-12-11T16:31:55Z)
What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models [22.0839948292609]
我々は,現代言語モデルの対実的推論能力をテストするために,新しいデータセットC-VQAを導入する。このデータセットは、数値クエリや対語クエリなど、さまざまなタイプでオリジナルの質問を注入することで構築される。このデータセットを用いた現代の視覚モデルの評価では、性能低下が顕著であり、いくつかのモデルでは40%まで低下している。
論文参考訳（メタデータ） (2023-10-10T13:45:59Z)
Causal Triplet: An Open Challenge for Intervention-centric Causal Representation Learning [98.78136504619539]
Causal Tripletは、視覚的に複雑なシーンを特徴とする因果表現学習ベンチマークである。この結果から,不整合表現やオブジェクト中心表現の知識によって構築されたモデルが,分散表現よりもはるかに優れていることを示す。
論文参考訳（メタデータ） (2023-01-12T17:43:38Z)
JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文参考訳（メタデータ） (2022-10-18T19:20:53Z)
Exploring the Trade-off between Plausibility, Change Intensity and Adversarial Power in Counterfactual Explanations using Multi-objective Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。本稿では, 対実例生成のための新しい枠組みを提案する。
論文参考訳（メタデータ） (2022-05-20T15:02:53Z)
Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文参考訳（メタデータ） (2020-08-31T15:31:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。