論文の概要: CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding
- arxiv url: http://arxiv.org/abs/2107.09847v2
- Date: Thu, 18 Apr 2024 08:11:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 20:14:16.650304
- Title: CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding
- Title(参考訳): CogME: ストーリー理解のための認知型多次元評価指標
- Authors: Minjung Shin, Seongho Choi, Yu-Jung Heo, Minsu Lee, Byoung-Tak Zhang, Jeh-Kwang Ryu,
- Abstract要約: 本稿では,物語理解に着目したAIモデルを対象とした認知型多次元評価指標であるCogMEを紹介する。
我々は,タスクの性質を理解することに基づくメトリクスの必要性を論じ,人間の認知過程と密接に整合するように設計されている。
このアプローチは、従来の全体的なスコアを超えて洞察を提供し、より高い認知機能をターゲットにしたより洗練されたAI開発のための道を開く。
- 参考スコア(独自算出の注目度): 19.113385429326808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CogME, a cognition-inspired, multi-dimensional evaluation metric designed for AI models focusing on story understanding. CogME is a framework grounded in human thinking strategies and story elements that involve story understanding. With a specific breakdown of the questions, this approach provides a nuanced assessment revealing not only AI models' particular strengths and weaknesses but also the characteristics of the benchmark dataset. Our case study with the DramaQA dataset demonstrates a refined analysis of the model and the benchmark dataset. We argue the need for metrics based on understanding the nature of tasks and designed to align closely with human cognitive processes. This approach provides insights beyond traditional overall scores and paves the way for more sophisticated AI development targeting higher cognitive functions.
- Abstract(参考訳): 本稿では,物語理解に着目したAIモデルを対象とした認知型多次元評価指標であるCogMEを紹介する。
CogMEは、人間の思考戦略とストーリー理解を含むストーリー要素に基づくフレームワークである。
質問の具体的なブレークダウンによって、このアプローチは、AIモデルの特定の長所と短所だけでなく、ベンチマークデータセットの特性も明らかにする、微妙な評価を提供する。
DramaQAデータセットを用いたケーススタディでは、モデルとベンチマークデータセットの洗練された分析が示されている。
我々は,タスクの性質を理解することに基づくメトリクスの必要性を論じ,人間の認知過程と密接に整合するように設計されている。
このアプローチは、従来の全体的なスコアを超えて洞察を提供し、より高い認知機能をターゲットにしたより洗練されたAI開発のための道を開く。
関連論文リスト
- Data Analysis in the Era of Generative AI [56.44807642944589]
本稿では,AIを活用したデータ分析ツールの可能性について考察する。
我々は、大規模言語とマルチモーダルモデルの出現が、データ分析ワークフローの様々な段階を強化する新しい機会を提供する方法について検討する。
次に、直感的なインタラクションを促進し、ユーザ信頼を構築し、AI支援分析ワークフローを複数のアプリにわたって合理化するための、人間中心の設計原則を調べます。
論文 参考訳(メタデータ) (2024-09-27T06:31:03Z) - Exposing Assumptions in AI Benchmarks through Cognitive Modelling [0.0]
文化AIベンチマークは、しばしば測定された構成物に関する暗黙の仮定に頼っており、不適切で明確な相互関係を持つ曖昧な定式化に繋がる。
構造方程式モデルとして定式化された明示的認知モデルを用いて,これらの仮定を明らかにする。
論文 参考訳(メタデータ) (2024-09-25T11:55:02Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Rethinking Language Models as Symbolic Knowledge Graphs [7.192286645674803]
シンボリック・ナレッジグラフ(英語版)(KG)は、検索、質問応答、レコメンデーションといった知識中心のアプリケーションにおいて重要な役割を果たす。
我々は、対称性、非対称性、階層性、双方向性、構成性、パス、エンティティ中心性、バイアス、曖昧さを含む属性のスペクトルを含む9つの定性的ベンチマークを構築した。
論文 参考訳(メタデータ) (2023-08-25T21:25:08Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Deep Graph Memory Networks for Forgetting-Robust Knowledge Tracing [5.648636668261282]
本稿では,新しい知識追跡モデル,すなわちemphDeep Graph Memory Network(DGMN)を提案する。
このモデルでは、忘れる動作を捉えるために、注意記憶構造に忘れるゲーティング機構を組み込む。
このモデルは動的潜在概念グラフから潜在概念間の関係を学習する能力を有する。
論文 参考訳(メタデータ) (2021-08-18T12:04:10Z) - KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization
and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。
2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。
我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文 参考訳(メタデータ) (2020-04-28T16:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。