Fugu-MT 論文翻訳(概要): BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind

論文の概要: BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind

arxiv url: http://arxiv.org/abs/2402.07402v1
Date: Mon, 12 Feb 2024 04:34:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-13 15:44:22.543123
Title: BDIQA: A New Dataset for Video Question Answering to Explore Cognitive Reasoning through Theory of Mind
Title（参考訳）: BDIQA:心の理論を通して認知推論を探求するビデオ質問のための新しいデータセット
Authors: Yuanyuan Mao, Xin Lin, Qin Ni, Liang He
Abstract要約: 心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
参考スコア（独自算出の注目度）: 21.806678376095576
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: As a foundational component of cognitive intelligence, theory of mind (ToM) can make AI more closely resemble human thought processes, thereby enhancing their interaction and collaboration with human. In particular, it can significantly improve a model's comprehension of videos in complex scenes. However, current video question answer (VideoQA) datasets focus on studying causal reasoning within events few of them genuinely incorporating human ToM. Consequently, there is a lack of development in ToM reasoning tasks within the area of VideoQA. This paper presents BDIQA, the first benchmark to explore the cognitive reasoning capabilities of VideoQA models in the context of ToM. BDIQA is inspired by the cognitive development of children's ToM and addresses the current deficiencies in machine ToM within datasets and tasks. Specifically, it offers tasks at two difficulty levels, assessing Belief, Desire and Intention (BDI) reasoning in both simple and complex scenarios. We conduct evaluations on several mainstream methods of VideoQA and diagnose their capabilities with zero shot, few shot and supervised learning. We find that the performance of pre-trained models on cognitive reasoning tasks remains unsatisfactory. To counter this challenge, we undertake thorough analysis and experimentation, ultimately presenting two guidelines to enhance cognitive reasoning derived from ablation analysis.
Abstract（参考訳）: 認知知の基本的な構成要素として、心の理論(ToM)は、AIを人間の思考プロセスに近づき、それによって人間との相互作用と協調を強化する。特に、複雑なシーンにおけるモデルの理解を大幅に改善することができる。しかし、現在のvideo question answer(videoqa)データセットは、イベント内の因果推論を研究することに焦点を当てている。そのため、ビデオQA領域内でのToM推論タスクの開発が不足している。本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。 BDIQAは子供のToMの認知発達にインスパイアされ、データセットやタスクにおけるマシンToMの現在の欠陥に対処する。具体的には、単純なシナリオと複雑なシナリオの両方において、BDI(Belief, Desire and Intention)推論を評価する、2つの難易度でタスクを提供する。ビデオQAの主流手法の評価を行い、ゼロショット、少数ショット、教師あり学習を用いてその能力を診断する。認知的推論タスクにおける事前学習モデルの性能は相容れないままである。この課題に対処するため、我々は徹底的な分析と実験を行い、最終的にはアブレーション分析に由来する認知的推論を強化するための2つのガイドラインを提示する。

関連論文リスト

Reasoning in machine vision: learning to think fast and slow [10.430190333487957]
推論は人間の知性の目印であり、複雑で不慣れなシナリオで適応的な意思決定を可能にする。マシンインテリジェンスは、推論時にソリューションを動的に洗練する能力がないため、トレーニングデータに縛られている。本稿では,思考時間の増加に伴う性能向上を実現することにより,視覚における機械推論を可能にする新しい学習パラダイムを提案する。
論文参考訳（メタデータ） (2025-06-27T10:03:05Z)
Video-Holmes: Can MLLM Think Like Holmes for Complex Video Reasoning? [56.06537213958482]
本稿では,MLLMの複雑なビデオ推論能力を評価するためのベンチマークであるVideo-Holmesを紹介する。 Video-Holmesは270本の手動注釈付きサスペンス短編映画から1,837の質問で構成されている。最新のMLLMを包括的に評価した結果,これらのモデルは視覚的知覚に優れるが,情報の統合にはかなりの困難が伴うことが明らかとなった。
論文参考訳（メタデータ） (2025-05-27T16:05:01Z)
Embodied-R: Collaborative Framework for Activating Embodied Spatial Reasoning in Foundation Models via Reinforcement Learning [58.86928947970342]
Embodied-Rは、知覚のための大規模視覚言語モデルと推論のための小規模言語モデルを組み合わせたフレームワークである。わずか5kのエボダイドビデオサンプルのトレーニングの後、Embodied-Rと3B LMは最先端のマルチモーダル推論モデルと一致した。 Embodied-Rは、体系的分析や文脈統合のような創発的な思考パターンも示している。
論文参考訳（メタデータ） (2025-04-17T06:16:11Z)
STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文参考訳（メタデータ） (2024-11-29T11:54:55Z)
Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文参考訳（メタデータ） (2024-11-15T03:45:09Z)
VCBench: A Controllable Benchmark for Symbolic and Abstract Challenges in Video Cognition [19.215440092652507]
本稿では,記号的および抽象的概念を含む認知能力を評価するための,制御可能なベンチマークであるVCBenchを紹介する。 Pythonベースのエンジンでビデオデータを生成することにより、VCBenchはビデオコンテンツの正確な制御を可能にする。評価の結果、Qwen2-VL-72Bのような最先端(SOTA)モデルでさえ、抽象概念を含む単純なビデオ認識タスクに苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2024-11-14T00:26:26Z)
Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。最近の傾向は、これらの2つの分野の潜在的均一性を示している。本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文参考訳（メタデータ） (2024-07-01T07:05:44Z)
Evaluating Large Vision-and-Language Models on Children's Mathematical Olympiads [74.54183505245553]
ジョイントビジョンとテキスト推論のためのAI能力の体系的分析は、現在の科学文献に欠けている。我々は,子どものオリンピアードからのビジュオ言語問題を用いて,その数学的およびアルゴリズム的推論能力に基づいて,最先端のLVLMを評価した。以上の結果から,近代のLVLMは,高学年の問題解決において,より強力な推論能力を示す一方で,幼児向けの問題に正しく答える基盤が欠如していることが示唆された。
論文参考訳（メタデータ） (2024-06-22T05:04:39Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
What is the Visual Cognition Gap between Humans and Multimodal LLMs? [22.99627171182423]
MLLM(Multimodal Large Language Models)は、認識、セグメンテーション、オブジェクト検出などの言語誘導タスクにおいて大きな可能性を示している。このような課題の1つは抽象的な視覚的推論(AVR)であり、一連の画像におけるパターン間の関係を識別し、その後のパターンを予測するために外挿する認知能力である。 MLLMのゼロショット能力を評価するために,新しいデータセットMaRs-VQAとVCog-Benchを提案する。
論文参考訳（メタデータ） (2024-06-14T22:02:21Z)
OlaGPT: Empowering LLMs With Human-like Problem-Solving Abilities [19.83434949066066]
本稿では,OlaGPTと呼ばれる新しいインテリジェントなフレームワークを紹介する。 OlaGPTは認知アーキテクチャの枠組みを慎重に研究し、人間の認知の特定の側面をシミュレートすることを提案する。このフレームワークは、注意、記憶、推論、学習、および対応するスケジューリングと意思決定メカニズムを含む、異なる認知モジュールの近似を含む。
論文参考訳（メタデータ） (2023-05-23T09:36:51Z)
A Review on Machine Theory of Mind [16.967933605635203]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、人間の認知の基盤である他者に対する精神状態の属性付け能力である。本稿では,機械ToMにおける信念,欲求,意図に関する最近の進歩を概観する。
論文参考訳（メタデータ） (2023-03-21T04:58:47Z)
EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文参考訳（メタデータ） (2022-10-08T05:49:05Z)
HALMA: Humanlike Abstraction Learning Meets Affordance in Rapid Problem Solving [104.79156980475686]
人間は自然主義的タスクの構造に応じて構成的および因果的抽象化、つまり知識を学ぶ。エージェントがその知識をどのように表現するかには、知覚、概念、アルゴリズムの3段階の一般化がある、と我々は主張する。このベンチマークは、ビジュアルコンセプト開発と迅速な問題解決のための新しいタスクドメイン、HALMAを中心にしています。
論文参考訳（メタデータ） (2021-02-22T20:37:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。