論文の概要: Paradigms of AI Evaluation: Mapping Goals, Methodologies and Culture
- arxiv url: http://arxiv.org/abs/2502.15620v1
- Date: Fri, 21 Feb 2025 17:44:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-24 23:44:09.988565
- Title: Paradigms of AI Evaluation: Mapping Goals, Methodologies and Culture
- Title(参考訳): AI評価のパラダイム:目標、方法論、文化のマッピング
- Authors: John Burden, Marko Tešić, Lorenzo Pacchiardi, José Hernández-Orallo,
- Abstract要約: 我々は、AI評価の現場における最近の研究を調査し、6つの主要なパラダイムを特定した。
我々は,現在の評価手法の広さに対する意識を高め,異なるパラダイム間の相互補間を促進することを目的としている。
- 参考スコア(独自算出の注目度): 16.361352880545073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in AI evaluation has grown increasingly complex and multidisciplinary, attracting researchers with diverse backgrounds and objectives. As a result, divergent evaluation paradigms have emerged, often developing in isolation, adopting conflicting terminologies, and overlooking each other's contributions. This fragmentation has led to insular research trajectories and communication barriers both among different paradigms and with the general public, contributing to unmet expectations for deployed AI systems. To help bridge this insularity, in this paper we survey recent work in the AI evaluation landscape and identify six main paradigms. We characterise major recent contributions within each paradigm across key dimensions related to their goals, methodologies and research cultures. By clarifying the unique combination of questions and approaches associated with each paradigm, we aim to increase awareness of the breadth of current evaluation approaches and foster cross-pollination between different paradigms. We also identify potential gaps in the field to inspire future research directions.
- Abstract(参考訳): AI評価の研究はますます複雑で多分野化され、さまざまな背景と目的を持つ研究者を惹きつけている。
その結果、異なる評価パラダイムが出現し、しばしば独立して発展し、矛盾する用語を採用し、互いの貢献を見下ろしている。
この断片化は、異なるパラダイムと一般の人々の間で、不規則な研究軌跡とコミュニケーション障壁をもたらし、デプロイされたAIシステムに対する予期せぬ期待に寄与している。
この不規則性を橋渡しするために、本稿では、AI評価の展望における最近の研究を調査し、6つの主要なパラダイムを特定します。
目標,方法論,研究文化に関連する重要な側面にまたがる,各パラダイムにおける最近の主要な貢献を特徴付ける。
それぞれのパラダイムに関連する質問とアプローチの独特な組み合わせを明確にすることで、現在の評価手法の広さに対する意識を高め、異なるパラダイム間の相互補完を促進することを目指している。
また、今後の研究の方向性を刺激するために、この分野の潜在的なギャップを特定する。
関連論文リスト
- Towards deployment-centric multimodal AI beyond vision and language [67.02589156099391]
デプロイ不能なソリューションの可能性を減らすために、デプロイメント制約を早期に組み込んだデプロイメント中心のワークフローを提唱します。
我々は、複数の分野にまたがる共通のマルチモーダルAI固有の課題を特定し、3つの実世界のユースケースについて検討する。
複数の学際的な対話とオープンな研究プラクティスを育むことで、我々のコミュニティは、広く社会に影響を及ぼすためのデプロイメント中心の開発を加速できる。
論文 参考訳(メタデータ) (2025-04-04T17:20:05Z) - Bridging the Gap: Integrating Ethics and Environmental Sustainability in AI Research and Practice [57.94036023167952]
我々は、AIの倫理的影響を研究するための努力は、その環境への影響を評価するものと相まって行われるべきであると論じる。
我々は,AI研究と実践にAI倫理と持続可能性を統合するためのベストプラクティスを提案する。
論文 参考訳(メタデータ) (2025-04-01T13:53:11Z) - Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。
既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。
我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文 参考訳(メタデータ) (2025-03-16T18:39:13Z) - On Generalization Across Environments In Multi-Objective Reinforcement Learning [6.686583184622338]
我々は,多目的強化学習(MORL)における一般化の概念を定式化し,その評価方法について述べる。
パラメータ化された環境構成を持つ多目的ドメインを特徴とする新しいベンチマークを提案。
このベンチマークにおける最先端のMORLアルゴリズムのベースライン評価は、限定的な一般化能力を示し、改善の余地があることを示唆している。
論文 参考訳(メタデータ) (2025-03-02T08:50:14Z) - Survey on AI-Generated Media Detection: From Non-MLLM to MLLM [51.91311158085973]
AI生成メディアを検出する方法は急速に進化してきた。
MLLMに基づく汎用検出器は、信頼性検証、説明可能性、ローカライゼーション機能を統合する。
倫理的・セキュリティ的な配慮が、重要な世界的な懸念として浮上している。
論文 参考訳(メタデータ) (2025-02-07T12:18:20Z) - The Potential and Challenges of Evaluating Attitudes, Opinions, and Values in Large Language Models [28.743404185915697]
本稿では,Large Language Models (LLMs) における態度, 意見, 価値 (AOVs) の評価に関する最近の研究の概要について概説する。
これにより、社会科学におけるモデル、人間とAIの整合性、下流の応用を理解するための可能性と課題に対処する。
論文 参考訳(メタデータ) (2024-06-16T22:59:18Z) - Towards Bidirectional Human-AI Alignment: A Systematic Review for Clarifications, Framework, and Future Directions [101.67121669727354]
近年のAIの進歩は、AIシステムを意図された目標、倫理的原則、個人とグループの価値に向けて導くことの重要性を強調している。
人間のAIアライメントの明確な定義とスコープの欠如は、このアライメントを達成するための研究領域間の共同作業を妨げる、大きな障害となる。
我々は、2019年から2024年1月までに400以上の論文を体系的にレビューし、HCI(Human-Computer Interaction)、自然言語処理(NLP)、機械学習(ML)といった複数の分野にまたがって紹介する。
論文 参考訳(メタデータ) (2024-06-13T16:03:25Z) - Understanding the Application of Utility Theory in Robotics and
Artificial Intelligence: A Survey [5.168741399695988]
このユーティリティは、経済学、ゲーム理論、およびオペレーション研究において、ロボティクスとAI分野においても統一された概念である。
本稿では,エージェントのインタラクション間の相互関係を記述し,評価するためのユーティリティ指向の要求パラダイムを提案する。
論文 参考訳(メタデータ) (2023-06-15T18:55:48Z) - Empathetic Conversational Systems: A Review of Current Advances, Gaps,
and Opportunities [2.741266294612776]
多くの研究が共感の利点を認識し、共感を会話システムに取り入れ始めた。
本稿では,5つのレビュー次元を用いて,急速に成長するこの分野について検討する。
論文 参考訳(メタデータ) (2022-05-09T05:19:48Z) - Recent Advances in Monocular 2D and 3D Human Pose Estimation: A Deep
Learning Perspective [69.44384540002358]
この問題に対処するための包括的で包括的な2D-to-3D視点を提供する。
2014年からの主流とマイルストーンのアプローチを統一フレームワークで分類しています。
また,ポーズ表現スタイル,ベンチマーク,評価指標,一般的なアプローチの定量的評価を要約した。
論文 参考訳(メタデータ) (2021-04-23T11:07:07Z) - Transdisciplinary AI Observatory -- Retrospective Analyses and
Future-Oriented Contradistinctions [22.968817032490996]
本稿では、本質的に学際的なAI観測アプローチの必要性を動機づける。
これらのAI観測ツールに基づいて、我々はAIの安全性に関する短期的な学際的ガイドラインを提示する。
論文 参考訳(メタデータ) (2020-11-26T16:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。