論文の概要: CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding
- arxiv url: http://arxiv.org/abs/2107.09847v3
- Date: Sun, 19 May 2024 05:37:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-22 01:31:05.025778
- Title: CogME: A Cognition-Inspired Multi-Dimensional Evaluation Metric for Story Understanding
- Title(参考訳): CogME: ストーリー理解のための認知型多次元評価指標
- Authors: Minjung Shin, Seongho Choi, Yu-Jung Heo, Minsu Lee, Byoung-Tak Zhang, Jeh-Kwang Ryu,
- Abstract要約: 本稿では,物語理解に着目したAIモデルを対象とした認知型多次元評価指標であるCogMEを紹介する。
我々は,タスクの性質を理解することに基づくメトリクスの必要性を論じ,人間の認知過程と密接に整合するように設計されている。
このアプローチは、従来の全体的なスコアを超えて洞察を提供し、より高い認知機能をターゲットにしたより洗練されたAI開発のための道を開く。
- 参考スコア(独自算出の注目度): 19.113385429326808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce CogME, a cognition-inspired, multi-dimensional evaluation metric designed for AI models focusing on story understanding. CogME is a framework grounded in human thinking strategies and story elements that involve story understanding. With a specific breakdown of the questions, this approach provides a nuanced assessment revealing not only AI models' particular strengths and weaknesses but also the characteristics of the benchmark dataset. Our case study with the DramaQA dataset demonstrates a refined analysis of the model and the benchmark dataset. We argue the need for metrics based on understanding the nature of tasks and designed to align closely with human cognitive processes. This approach provides insights beyond traditional overall scores and paves the way for more sophisticated AI development targeting higher cognitive functions.
- Abstract(参考訳): 本稿では,物語理解に着目したAIモデルを対象とした認知型多次元評価指標であるCogMEを紹介する。
CogMEは、人間の思考戦略とストーリー理解を含むストーリー要素に基づくフレームワークである。
質問の具体的なブレークダウンによって、このアプローチは、AIモデルの特定の長所と短所だけでなく、ベンチマークデータセットの特性も明らかにする、微妙な評価を提供する。
DramaQAデータセットを用いたケーススタディでは、モデルとベンチマークデータセットの洗練された分析が示されている。
我々は,タスクの性質を理解することに基づくメトリクスの必要性を論じ,人間の認知過程と密接に整合するように設計されている。
このアプローチは、従来の全体的なスコアを超えて洞察を提供し、より高い認知機能をターゲットにしたより洗練されたAI開発のための道を開く。
関連論文リスト
- Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Coding for Intelligence from the Perspective of Category [66.14012258680992]
符号化の対象はデータの圧縮と再構成、インテリジェンスである。
最近の傾向は、これらの2つの分野の潜在的均一性を示している。
本稿では,カテゴリ理論の観点から,インテリジェンスのためのコーディングの新たな問題を提案する。
論文 参考訳(メタデータ) (2024-07-01T07:05:44Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Rethinking Language Models as Symbolic Knowledge Graphs [7.192286645674803]
シンボリック・ナレッジグラフ(英語版)(KG)は、検索、質問応答、レコメンデーションといった知識中心のアプリケーションにおいて重要な役割を果たす。
我々は、対称性、非対称性、階層性、双方向性、構成性、パス、エンティティ中心性、バイアス、曖昧さを含む属性のスペクトルを含む9つの定性的ベンチマークを構築した。
論文 参考訳(メタデータ) (2023-08-25T21:25:08Z) - Enhancing Human-like Multi-Modal Reasoning: A New Challenging Dataset
and Comprehensive Framework [51.44863255495668]
マルチモーダル推論は、人間のような知性を示す人工知能システムの追求において重要な要素である。
提案するマルチモーダル推論(COCO-MMR)データセットは,オープンエンド質問の集合を包含する新しいデータセットである。
画像とテキストエンコーダを強化するために,マルチホップ・クロスモーダル・アテンションや文レベルのコントラスト学習などの革新的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-24T08:58:25Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - Deep Graph Memory Networks for Forgetting-Robust Knowledge Tracing [5.648636668261282]
本稿では,新しい知識追跡モデル,すなわちemphDeep Graph Memory Network(DGMN)を提案する。
このモデルでは、忘れる動作を捉えるために、注意記憶構造に忘れるゲーティング機構を組み込む。
このモデルは動的潜在概念グラフから潜在概念間の関係を学習する能力を有する。
論文 参考訳(メタデータ) (2021-08-18T12:04:10Z) - KACC: A Multi-task Benchmark for Knowledge Abstraction, Concretization
and Completion [99.47414073164656]
包括的知識グラフ(KG)は、インスタンスレベルのエンティティグラフとオントロジーレベルの概念グラフを含む。
2ビューのKGは、知識の抽象化、包括化、完成に関する人間の能力を「シミュレーション」するためのモデルのためのテストベッドを提供する。
我々は,データセットのスケール,タスクカバレッジ,難易度の観点から,既存のベンチマークを改善した統一KGベンチマークを提案する。
論文 参考訳(メタデータ) (2020-04-28T16:21:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。