論文の概要: BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind
- arxiv url: http://arxiv.org/abs/2402.07402v1
- Date: Mon, 12 Feb 2024 04:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:44:22.543123
- Title: BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind
- Title(参考訳): BDIQA:心の理論を通して認知推論を探求するビデオ質問のための新しいデータセット
- Authors: Yuanyuan Mao, Xin Lin, Qin Ni, Liang He
- Abstract要約: 心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。
ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
- 参考スコア(独自算出の注目度): 21.806678376095576
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As a foundational component of cognitive intelligence, theory of mind (ToM)
can make AI more closely resemble human thought processes, thereby enhancing
their interaction and collaboration with human. In particular, it can
significantly improve a model's comprehension of videos in complex scenes.
However, current video question answer (VideoQA) datasets focus on studying
causal reasoning within events few of them genuinely incorporating human ToM.
Consequently, there is a lack of development in ToM reasoning tasks within the
area of VideoQA. This paper presents BDIQA, the first benchmark to explore the
cognitive reasoning capabilities of VideoQA models in the context of ToM. BDIQA
is inspired by the cognitive development of children's ToM and addresses the
current deficiencies in machine ToM within datasets and tasks. Specifically, it
offers tasks at two difficulty levels, assessing Belief, Desire and Intention
(BDI) reasoning in both simple and complex scenarios. We conduct evaluations on
several mainstream methods of VideoQA and diagnose their capabilities with zero
shot, few shot and supervised learning. We find that the performance of
pre-trained models on cognitive reasoning tasks remains unsatisfactory. To
counter this challenge, we undertake thorough analysis and experimentation,
ultimately presenting two guidelines to enhance cognitive reasoning derived
from ablation analysis.
- Abstract(参考訳): 認知知の基本的な構成要素として、心の理論(ToM)は、AIを人間の思考プロセスに近づき、それによって人間との相互作用と協調を強化する。
特に、複雑なシーンにおけるモデルの理解を大幅に改善することができる。
しかし、現在のvideo question answer(videoqa)データセットは、イベント内の因果推論を研究することに焦点を当てている。
そのため、ビデオQA領域内でのToM推論タスクの開発が不足している。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
BDIQAは子供のToMの認知発達にインスパイアされ、データセットやタスクにおけるマシンToMの現在の欠陥に対処する。
具体的には、単純なシナリオと複雑なシナリオの両方において、BDI(Belief, Desire and Intention)推論を評価する、2つの難易度でタスクを提供する。
ビデオQAの主流手法の評価を行い、ゼロショット、少数ショット、教師あり学習を用いてその能力を診断する。
認知的推論タスクにおける事前学習モデルの性能は相容れないままである。
この課題に対処するため、我々は徹底的な分析と実験を行い、最終的にはアブレーション分析に由来する認知的推論を強化するための2つのガイドラインを提示する。
関連論文リスト
- Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - VCBench: A Controllable Benchmark for Symbolic and Abstract Challenges in Video Cognition [19.215440092652507]
本稿では,記号的および抽象的概念を含む認知能力を評価するための,制御可能なベンチマークであるVCBenchを紹介する。
Pythonベースのエンジンでビデオデータを生成することにより、VCBenchはビデオコンテンツの正確な制御を可能にする。
評価の結果、Qwen2-VL-72Bのような最先端(SOTA)モデルでさえ、抽象概念を含む単純なビデオ認識タスクに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T00:26:26Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads [74.54183505245553]
ジョイントビジョンとテキスト推論のためのAI能力の体系的分析は、現在の科学文献に欠けている。
我々は,子どものオリンピアードからのビジュオ言語問題を用いて,その数学的およびアルゴリズム的推論能力に基づいて,最先端のLVLMを評価した。
以上の結果から,近代のLVLMは,高学年の問題解決において,より強力な推論能力を示す一方で,幼児向けの問題に正しく答える基盤が欠如していることが示唆された。
論文 参考訳(メタデータ) (2024-06-22T05:04:39Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - What is the Visual Cognition Gap between Humans and Multimodal LLMs? [22.99627171182423]
MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出などの言語誘導タスクにおいて大きな可能性を示している。
このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。
MLLMのゼロショット能力を評価するために,新しいデータセットMaRs-VQAとVCog-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-14T22:02:21Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - A Review on Machine Theory of Mind [16.967933605635203]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、人間の認知の基盤である他者に対する精神状態の属性付け能力である。
本稿では,機械ToMにおける信念,欲求,意図に関する最近の進歩を概観する。
論文 参考訳(メタデータ) (2023-03-21T04:58:47Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。