Fugu-MT 論文翻訳(概要): CogME: A Novel Evaluation Metric for Video Understanding Intelligence

論文の概要: CogME: A Novel Evaluation Metric for Video Understanding Intelligence

arxiv url: http://arxiv.org/abs/2107.09847v1
Date: Wed, 21 Jul 2021 02:33:37 GMT
ステータス: 翻訳完了
システム内更新日: 2021-07-22 14:24:46.046915
Title: CogME: A Novel Evaluation Metric for Video Understanding Intelligence
Title（参考訳）: CogME:ビデオ理解インテリジェンスのための新しい評価基準
Authors: Minjung Shin (1), Jeonghoon Kim (1 and 2), Seongho Choi (3), Yu-Jung Heo (3), Donghyun Kim (1 and 4), Minsu Lee (3 and 5), Byoung-Tak Zhang (3 and 5) and Jeh-Kwang Ryu (1 and 4) ((1) Laboratory for Natural and Artificial Kin\"asthese, Convergence Research Center for Artificial Intelligence (CRC4AI), Dongguk University, Seoul, South Korea, (2) Department of Artificial Intelligence, Dongguk University, Seoul, South Korea, (3) Biointelligence Laboratory, Department of Computer Science and Engineering, Seoul National University, Seoul, South Korea, (4) Department of Physical Education, College of Education, Dongguk University, Seoul, South Korea, (5) AI Institute of Seoul National University (AIIS), Seoul, South Korea)
Abstract要約: 我々は、理解のパフォーマンスを詳細に説明し、評価するために、十分に作られたフレームワークが必要であると論じる。 CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。我々は、ビデオ理解知能の検証のためのビデオQAデータセットの適合性を評価する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Developing video understanding intelligence is quite challenging because it requires holistic integration of images, scripts, and sounds based on natural language processing, temporal dependency, and reasoning. Recently, substantial attempts have been made on several video datasets with associated question answering (QA) on a large scale. However, existing evaluation metrics for video question answering (VideoQA) do not provide meaningful analysis. To make progress, we argue that a well-made framework, established on the way humans understand, is required to explain and evaluate the performance of understanding in detail. Then we propose a top-down evaluation system for VideoQA, based on the cognitive process of humans and story elements: Cognitive Modules for Evaluation (CogME). CogME is composed of three cognitive modules: targets, contents, and thinking. The interaction among the modules in the understanding procedure can be expressed in one sentence as follows: "I understand the CONTENT of the TARGET through a way of THINKING." Each module has sub-components derived from the story elements. We can specify the required aspects of understanding by annotating the sub-components to individual questions. CogME thus provides a framework for an elaborated specification of VideoQA datasets. To examine the suitability of a VideoQA dataset for validating video understanding intelligence, we evaluated the baseline model of the DramaQA dataset by applying CogME. The evaluation reveals that story elements are unevenly reflected in the existing dataset, and the model based on the dataset may cause biased predictions. Although this study has only been able to grasp a narrow range of stories, we expect that it offers the first step in considering the cognitive process of humans on the video understanding intelligence of humans and AI.
Abstract（参考訳）: 映像理解インテリジェンスの開発は、自然言語処理、時間依存、推論に基づく画像、スクリプト、音声の総合的な統合を必要とするため、非常に難しい。近年,大規模に質問応答(qa)を伴う複数のビデオデータセットにおいて,相当な試みがなされている。しかし,ビデオ質問応答(VideoQA)の既存の評価基準は,有意義な分析を提供していない。進歩させるためには、人間が理解する方法で確立された優れたフレームワークは、詳細な理解のパフォーマンスを説明し、評価する必要があると論じる。次に,人間とストーリー要素の認知過程に基づくビデオqaのためのトップダウン評価システム,cognitive modules for evaluation (cogme)を提案する。 CogMEは、ターゲット、内容、思考の3つの認知モジュールで構成されている。理解手続きにおけるモジュール間の相互作用は,「THINKINGを通じてTARGETの内容を理解する」という文で表すことができる。各モジュールはストーリー要素から派生したサブコンポーネントを持つ。サブコンポーネントを個別の質問にアノテートすることで、必要な理解の側面を特定できる。 CogMEは、VideoQAデータセットの詳細な仕様のためのフレームワークを提供する。映像理解インテリジェンスを検証するためのVideoQAデータセットの適合性を検討するために,CogMEを適用してDramaQAデータセットのベースラインモデルを評価した。評価の結果、ストーリー要素が既存のデータセットに不均一に反映されていることが明らかとなり、データセットに基づくモデルはバイアス付き予測を引き起こす可能性がある。この研究は限られた範囲のストーリーしか把握できなかったが、人間とAIの映像理解における人間の認知過程を考えるための第一歩になると期待している。

関連論文リスト

When Models Know More Than They Can Explain: Quantifying Knowledge Transfer in Human-AI Collaboration [79.69935257008467]
我々は,人間とAIの知識伝達能力に関する概念的かつ実験的フレームワークである知識統合と伝達評価(KITE)を紹介する。最初の大規模人間実験(N=118)を行い,その測定を行った。 2段階のセットアップでは、まずAIを使って問題解決戦略を思いつき、その後独立してソリューションを実装し、モデル説明が人間の理解に与える影響を分離します。
論文参考訳（メタデータ） (2025-06-05T20:48:16Z)
Multimodal Generative AI for Story Point Estimation in Software Development [0.9831489366502301]
この研究は、アジャイルソフトウェア開発におけるストーリーポイント推定を強化するために、マルチモーダル・ジェネレーティブ・AI(Multimodal Generative AI)の適用について検討する。 BERT, CNN, XGBoostといった高度なモデルを用いてテキスト, 画像, 分類データを統合することにより, 従来の単一モーダル推定手法の限界を超えている。
論文参考訳（メタデータ） (2025-05-22T06:40:41Z)
How Metacognitive Architectures Remember Their Own Thoughts: A Systematic Review [16.35521789216079]
計算メタ認知アーキテクチャ(CMA)がどのようにしてメタ認知経験をモデル化し、保存し、記憶し、処理するかをレビューする。基礎となる心理学理論から収集データの内容と構造、使用するアルゴリズムや評価結果まで、さまざまな側面を考察する。
論文参考訳（メタデータ） (2025-02-28T08:48:41Z)
A Survey of Event Causality Identification: Taxonomy, Challenges, Assessment, and Prospects [6.492836595169771]
事象因果同定(ECI)は自然言語処理(NLP)において重要な課題となっている。この総合的な調査は、基本的な概念とモデルを体系的に調査し、体系的な分類学を開発し、多様なモデルを批判的に評価する。
論文参考訳（メタデータ） (2024-11-15T17:19:42Z)
Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文参考訳（メタデータ） (2024-09-27T06:31:03Z)
Exposing Assumptions in AI Benchmarks through Cognitive Modelling [0.0]
文化AIベンチマークは、しばしば測定された構成物に関する暗黙の仮定に頼っており、不適切で明確な相互関係を持つ曖昧な定式化に繋がる。構造方程式モデルとして定式化された明示的認知モデルを用いて,これらの仮定を明らかにする。
論文参考訳（メタデータ） (2024-09-25T11:55:02Z)
Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文参考訳（メタデータ） (2024-07-22T17:52:12Z)
Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。最近の傾向は、これらの2つの分野の潜在的均一性を示している。本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文参考訳（メタデータ） (2024-07-01T07:05:44Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Rethinking Language Models as Symbolic Knowledge Graphs [7.192286645674803]
シンボリック・ナレッジグラフ(英語版)(KG)は、検索、質問応答、レコメンデーションといった知識中心のアプリケーションにおいて重要な役割を果たす。我々は、対称性、非対称性、階層性、双方向性、構成性、パス、エンティティ中心性、バイアス、曖昧さを含む属性のスペクトルを含む9つの定性的ベンチマークを構築した。
論文参考訳（メタデータ） (2023-08-25T21:25:08Z)
Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文参考訳（メタデータ） (2023-07-24T08:58:25Z)
Deep Graph Memory Networks for Forgetting-Robust Knowledge Tracing [5.648636668261282]
本稿では,新しい知識追跡モデル,すなわちemphDeep Graph Memory Network(DGMN)を提案する。このモデルでは、忘れる動作を捉えるために、注意記憶構造に忘れるゲーティング機構を組み込む。このモデルは動的潜在概念グラフから潜在概念間の関係を学習する能力を有する。
論文参考訳（メタデータ） (2021-08-18T12:04:10Z)
KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。 2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文参考訳（メタデータ） (2020-04-28T16:21:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。