論文の概要: BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind
- arxiv url: http://arxiv.org/abs/2402.07402v1
- Date: Mon, 12 Feb 2024 04:34:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 15:44:22.543123
- Title: BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind
- Title(参考訳): BDIQA:心の理論を通して認知推論を探求するビデオ質問のための新しいデータセット
- Authors: Yuanyuan Mao, Xin Lin, Qin Ni, Liang He
- Abstract要約: 心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。
ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
- 参考スコア(独自算出の注目度): 21.806678376095576
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: As a foundational component of cognitive intelligence, theory of mind (ToM)
can make AI more closely resemble human thought processes, thereby enhancing
their interaction and collaboration with human. In particular, it can
significantly improve a model's comprehension of videos in complex scenes.
However, current video question answer (VideoQA) datasets focus on studying
causal reasoning within events few of them genuinely incorporating human ToM.
Consequently, there is a lack of development in ToM reasoning tasks within the
area of VideoQA. This paper presents BDIQA, the first benchmark to explore the
cognitive reasoning capabilities of VideoQA models in the context of ToM. BDIQA
is inspired by the cognitive development of children's ToM and addresses the
current deficiencies in machine ToM within datasets and tasks. Specifically, it
offers tasks at two difficulty levels, assessing Belief, Desire and Intention
(BDI) reasoning in both simple and complex scenarios. We conduct evaluations on
several mainstream methods of VideoQA and diagnose their capabilities with zero
shot, few shot and supervised learning. We find that the performance of
pre-trained models on cognitive reasoning tasks remains unsatisfactory. To
counter this challenge, we undertake thorough analysis and experimentation,
ultimately presenting two guidelines to enhance cognitive reasoning derived
from ablation analysis.
- Abstract(参考訳): 認知知の基本的な構成要素として、心の理論(ToM)は、AIを人間の思考プロセスに近づき、それによって人間との相互作用と協調を強化する。
特に、複雑なシーンにおけるモデルの理解を大幅に改善することができる。
しかし、現在のvideo question answer(videoqa)データセットは、イベント内の因果推論を研究することに焦点を当てている。
そのため、ビデオQA領域内でのToM推論タスクの開発が不足している。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
BDIQAは子供のToMの認知発達にインスパイアされ、データセットやタスクにおけるマシンToMの現在の欠陥に対処する。
具体的には、単純なシナリオと複雑なシナリオの両方において、BDI(Belief, Desire and Intention)推論を評価する、2つの難易度でタスクを提供する。
ビデオQAの主流手法の評価を行い、ゼロショット、少数ショット、教師あり学習を用いてその能力を診断する。
認知的推論タスクにおける事前学習モデルの性能は相容れないままである。
この課題に対処するため、我々は徹底的な分析と実験を行い、最終的にはアブレーション分析に由来する認知的推論を強化するための2つのガイドラインを提示する。
関連論文リスト
- MacGyver: Are Large Language Models Creative Problem Solvers? [90.62345519188655]
本稿では,現代大言語モデル(LLM)の創造的問題解決能力について,制約のある環境で検討する。
私たちは1,600の現実世界の問題からなる自動生成されたデータセットであるMacGyverを作成します。
MacGyverはどちらのグループでも難しいが、ユニークで相補的な方法では難しい。
論文 参考訳(メタデータ) (2023-11-16T08:52:27Z) - OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。
OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。
このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文 参考訳(メタデータ) (2023-05-23T09:36:51Z) - A Review on Machine Theory of Mind [16.967933605635203]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、人間の認知の基盤である他者に対する精神状態の属性付け能力である。
本稿では,機械ToMにおける信念,欲求,意図に関する最近の進歩を概観する。
論文 参考訳(メタデータ) (2023-03-21T04:58:47Z) - Memory-Augmented Theory of Mind Network [59.9781556714202]
社会的推論は、心の理論(ToM)の能力を必要とする。
ToMに対する最近の機械学習アプローチは、観察者が過去を読み、他のエージェントの振る舞いを提示するように訓練できることを実証している。
我々は,新たなニューラルメモリ機構を組み込んで符号化し,階層的な注意を払って他者に関する情報を選択的に検索することで,課題に対処する。
この結果、ToMMYは心的プロセスについての仮定をほとんど行わずに理性を学ぶマインドモデルである。
論文 参考訳(メタデータ) (2023-01-17T14:48:58Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - Anti-Retroactive Interference for Lifelong Learning [65.50683752919089]
我々は脳のメタラーニングと連想機構に基づく生涯学習のパラダイムを設計する。
知識の抽出と知識の記憶という2つの側面から問題に取り組む。
提案した学習パラダイムが,異なるタスクのモデルを同じ最適に収束させることができることを理論的に分析した。
論文 参考訳(メタデータ) (2022-08-27T09:27:36Z) - CogME: A Novel Evaluation Metric for Video Understanding Intelligence [0.0]
我々は、理解のパフォーマンスを詳細に説明し、評価するために、十分に作られたフレームワークが必要であると論じる。
CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。
我々は、ビデオ理解知能の検証のためのビデオQAデータセットの適合性を評価する。
論文 参考訳(メタデータ) (2021-07-21T02:33:37Z) - HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem
Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。
エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。
このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文 参考訳(メタデータ) (2021-02-22T20:37:01Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Multi-Granularity Modularized Network for Abstract Visual Reasoning [15.956555435408557]
我々は、認知的推論を測定するために設計されたRaven Progressive Matrices Testに焦点を当てる。
認知研究から着想を得たMMON(Multi-Granularity Modularized Network)を提案する。
論文 参考訳(メタデータ) (2020-07-09T09:54:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。