論文の概要: CogME: A Novel Evaluation Metric for Video Understanding Intelligence
- arxiv url: http://arxiv.org/abs/2107.09847v1
- Date: Wed, 21 Jul 2021 02:33:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-22 14:24:46.046915
- Title: CogME: A Novel Evaluation Metric for Video Understanding Intelligence
- Title(参考訳): CogME:ビデオ理解インテリジェンスのための新しい評価基準
- Authors: Minjung Shin (1), Jeonghoon Kim (1 and 2), Seongho Choi (3), Yu-Jung
Heo (3), Donghyun Kim (1 and 4), Minsu Lee (3 and 5), Byoung-Tak Zhang (3 and
5) and Jeh-Kwang Ryu (1 and 4) ((1) Laboratory for Natural and Artificial
Kin\"asthese, Convergence Research Center for Artificial Intelligence
(CRC4AI), Dongguk University, Seoul, South Korea, (2) Department of
Artificial Intelligence, Dongguk University, Seoul, South Korea, (3)
Biointelligence Laboratory, Department of Computer Science and Engineering,
Seoul National University, Seoul, South Korea, (4) Department of Physical
Education, College of Education, Dongguk University, Seoul, South Korea, (5)
AI Institute of Seoul National University (AIIS), Seoul, South Korea)
- Abstract要約: 我々は、理解のパフォーマンスを詳細に説明し、評価するために、十分に作られたフレームワークが必要であると論じる。
CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。
我々は、ビデオ理解知能の検証のためのビデオQAデータセットの適合性を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Developing video understanding intelligence is quite challenging because it
requires holistic integration of images, scripts, and sounds based on natural
language processing, temporal dependency, and reasoning. Recently, substantial
attempts have been made on several video datasets with associated question
answering (QA) on a large scale. However, existing evaluation metrics for video
question answering (VideoQA) do not provide meaningful analysis. To make
progress, we argue that a well-made framework, established on the way humans
understand, is required to explain and evaluate the performance of
understanding in detail. Then we propose a top-down evaluation system for
VideoQA, based on the cognitive process of humans and story elements: Cognitive
Modules for Evaluation (CogME). CogME is composed of three cognitive modules:
targets, contents, and thinking. The interaction among the modules in the
understanding procedure can be expressed in one sentence as follows: "I
understand the CONTENT of the TARGET through a way of THINKING." Each module
has sub-components derived from the story elements. We can specify the required
aspects of understanding by annotating the sub-components to individual
questions. CogME thus provides a framework for an elaborated specification of
VideoQA datasets. To examine the suitability of a VideoQA dataset for
validating video understanding intelligence, we evaluated the baseline model of
the DramaQA dataset by applying CogME. The evaluation reveals that story
elements are unevenly reflected in the existing dataset, and the model based on
the dataset may cause biased predictions. Although this study has only been
able to grasp a narrow range of stories, we expect that it offers the first
step in considering the cognitive process of humans on the video understanding
intelligence of humans and AI.
- Abstract(参考訳): 映像理解インテリジェンスの開発は、自然言語処理、時間依存、推論に基づく画像、スクリプト、音声の総合的な統合を必要とするため、非常に難しい。
近年,大規模に質問応答(qa)を伴う複数のビデオデータセットにおいて,相当な試みがなされている。
しかし,ビデオ質問応答(VideoQA)の既存の評価基準は,有意義な分析を提供していない。
進歩させるためには、人間が理解する方法で確立された優れたフレームワークは、詳細な理解のパフォーマンスを説明し、評価する必要があると論じる。
次に,人間とストーリー要素の認知過程に基づくビデオqaのためのトップダウン評価システム,cognitive modules for evaluation (cogme)を提案する。
CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。
理解手続きにおけるモジュール間の相互作用は,「THINKINGを通じてTARGETの内容を理解する」という文で表すことができる。
各モジュールはストーリー要素から派生したサブコンポーネントを持つ。
サブコンポーネントを個別の質問にアノテートすることで、必要な理解の側面を特定できる。
CogMEは、VideoQAデータセットの詳細な仕様のためのフレームワークを提供する。
映像理解インテリジェンスを検証するためのVideoQAデータセットの適合性を検討するために,CogMEを適用してDramaQAデータセットのベースラインモデルを評価した。
評価の結果、ストーリー要素が既存のデータセットに不均一に反映されていることが明らかとなり、データセットに基づくモデルはバイアス付き予測を引き起こす可能性がある。
この研究は限られた範囲のストーリーしか把握できなかったが、人間とAIの映像理解における人間の認知過程を考えるための第一歩になると期待している。
関連論文リスト
- BDIQA: A New Dataset for Video Question Answering to Explore Cognitive
Reasoning through Theory of Mind [21.806678376095576]
心の理論(ToM)は、AIをより人間の思考プロセスによく似ている。
ビデオ質問応答(Video QA)データセットは、人間のToMを真に取り入れたイベントの因果推論を研究することに焦点を当てている。
本稿では,ToMの文脈におけるビデオQAモデルの認知的推論能力に関する最初のベンチマークであるBDIQAを提案する。
論文 参考訳(メタデータ) (2024-02-12T04:34:19Z) - Video-Bench: A Comprehensive Benchmark and Toolkit for Evaluating
Video-based Large Language Models [81.84810348214113]
ビデオベースの大規模言語モデル(Video-LLMs)が最近導入され、認識と理解の基本的な改善と多様なユーザからの問い合わせの両方をターゲットにしている。
このようなモデルの開発を導くため、堅牢で包括的な評価システムの構築が重要となる。
本稿では,ビデオLLMの評価に特化して設計されたツールキットとともに,新しい総合的なベンチマークであるtextitVideo-Benchを提案する。
論文 参考訳(メタデータ) (2023-11-27T18:59:58Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - EgoTaskQA: Understanding Human Tasks in Egocentric Videos [89.9573084127155]
EgoTaskQAベンチマークは、現実世界のエゴセントリックなビデオに対する質問回答を通じて、タスク理解の重要な次元を提供する。
我々は,(1)行動依存と効果,(2)意図と目標,(3)エージェントの他者に対する信念の理解を念頭に設計する。
我々は、我々のベンチマークで最先端のビデオ推論モデルを評価し、複雑なゴール指向のエゴセントリックなビデオを理解する上で、人間の間に大きなギャップがあることを示します。
論文 参考訳(メタデータ) (2022-10-08T05:49:05Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - DramaQA: Character-Centered Video Story Understanding with Hierarchical
QA [24.910132013543947]
本稿では,ビデオストーリーを包括的に理解するために,新しいビデオ質問応答(ビデオQA)タスクであるDramaQAを提案する。
我々のデータセットはテレビドラマ『Another Miss Oh』の上に構築されており、17,983対のQAが23,928の様々な長さのビデオクリップから作成されている。
我々は217,308個の注釈付き画像にリッチな文字中心のアノテーションを提供し、その中には視覚的バウンディングボックス、行動、メインキャラクタの感情が含まれる。
論文 参考訳(メタデータ) (2020-05-07T09:44:58Z) - HLVU : A New Challenge to Test Deep Understanding of Movies the Way
Humans do [3.423039905282442]
本稿では,ハイレベル映像理解分野における新たな評価課題と方向性を提案する。
私たちが提案している課題は、自動ビデオ分析と理解のテストと、アクター、エンティティ、イベント、そしてそれらの関係について、いかに正確に映画を理解できるかをテストすることである。
オープンソースの映画のハイレベルビデオ理解データセットを試験的に収集し、人間の評価者がそれぞれを表現する知識グラフを構築した。
クエリのセットは、知識グラフから派生し、アクター間の関係を検索するシステムをテストするとともに、非視覚的概念の推論と検索を行う。
論文 参考訳(メタデータ) (2020-05-01T15:58:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。