Fugu-MT 論文翻訳(概要): Evaluatology: The Science and Engineering of Evaluation

論文の概要: Evaluatology: The Science and Engineering of Evaluation

arxiv url: http://arxiv.org/abs/2404.00021v1
Date: Tue, 19 Mar 2024 13:38:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-07 23:17:33.305145
Title: Evaluatology: The Science and Engineering of Evaluation
Title（参考訳）: 評価学:評価の科学と工学
Authors: Jianfeng Zhan, Lei Wang, Wanling Gao, Hongxiao Li, Chenxi Wang, Yunyou Huang, Yatao Li, Zhengxin Yang, Guoxin Kang, Chunjie Luo, Hainan Ye, Shaopeng Dai, Zhifei Zhang,
Abstract要約: 本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。
参考スコア（独自算出の注目度）: 11.997673313601423
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Evaluation is a crucial aspect of human existence and plays a vital role in various fields. However, it is often approached in an empirical and ad-hoc manner, lacking consensus on universal concepts, terminologies, theories, and methodologies. This lack of agreement has significant repercussions. This article aims to formally introduce the discipline of evaluatology, which encompasses the science and engineering of evaluation. We propose a universal framework for evaluation, encompassing concepts, terminologies, theories, and methodologies that can be applied across various disciplines. Our research reveals that the essence of evaluation lies in conducting experiments that intentionally apply a well-defined evaluation condition to diverse subjects and infer the impact of different subjects by measuring and/or testing. Derived from the essence of evaluation, we propose five axioms focusing on key aspects of evaluation outcomes as the foundational evaluation theory. These axioms serve as the bedrock upon which we build universal evaluation theories and methodologies. When evaluating a single subject, it is crucial to create evaluation conditions with different levels of equivalency. By applying these conditions to diverse subjects, we can establish reference evaluation models. These models allow us to alter a single independent variable at a time while keeping all other variables as controls. When evaluating complex scenarios, the key lies in establishing a series of evaluation models that maintain transitivity. Building upon the science of evaluation, we propose a formal definition of a benchmark as a simplified and sampled evaluation condition that guarantees different levels of equivalency. This concept serves as the cornerstone for a universal benchmark-based engineering approach to evaluation across various disciplines, which we refer to as benchmarkology.
Abstract（参考訳）: 評価は人間の存在の重要な側面であり、様々な分野で重要な役割を果たしている。しかし、普遍的な概念、用語、理論、方法論についてのコンセンサスが欠如している経験的かつアドホックな方法でアプローチされることがしばしばある。この合意の欠如は大きな反響を呼んだ。本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。本研究は,多種多様な被験者に対して客観的に評価条件を適用し,測定および/または試験によって異なる被験者の影響を推定する実験を行うことが評価の本質であることを明らかにした。評価の本質から,評価結果の重要側面に着目した5つの公理を基礎評価理論として提案する。これらの公理は、普遍的な評価理論と方法論を構築する基盤となる。 1つの主題を評価する場合、同値性の異なる評価条件を作成することが不可欠である。これらの条件を多様な対象に適用することにより、基準評価モデルを確立することができる。これらのモデルでは、他のすべての変数をコントロールとして保ちながら、単一の独立変数を一度に変更することができます。複雑なシナリオを評価するとき、鍵となるのは、推移性を維持する一連の評価モデルを確立することである。評価の科学に基づいて,同値性の異なる評価条件として,ベンチマークの形式的定義を提案する。この概念は、様々な分野にまたがって評価を行う、普遍的なベンチマークベースのエンジニアリングアプローチの基盤となる。

関連論文リスト

Lessons from the trenches on evaluating machine-learning systems in materials science [0.3592274960837379]
科学における機械学習評価フレームワークの現状と今後の方向性について検討する。構成妥当性,データ品質問題,メートル法設計制限,ベンチマーク保守問題など,機械学習評価に共通する課題を特定する。本研究では,測定選択と制限を文書化するための構造化手法として評価カードを提案する。
論文参考訳（メタデータ） (2025-03-13T19:40:58Z)
Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文参考訳（メタデータ） (2024-09-07T02:07:22Z)
StructEval: Deepen and Broaden Large Language Model Assessment via Structured Evaluation [46.59416831869014]
本稿では,StructEvalと呼ばれる新しい評価フレームワークを提案する。原子テストの目的から始めて、StructEvalは、複数の認知レベルと批判的概念にまたがって構造化された評価を行うことによって、評価をさらに深め、拡張する。広く使用されている3つのベンチマークの実験は、StructEvalがデータ汚染のリスクに抵抗する信頼性の高いツールであることを示している。
論文参考訳（メタデータ） (2024-08-06T16:28:30Z)
ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文参考訳（メタデータ） (2024-05-28T22:45:28Z)
Multi-Criteria Comparison as a Method of Advancing Knowledge-Guided Machine Learning [1.6574413179773761]
本稿では,AI/MLモデルの評価に適用可能な一般化可能なモデル評価手法について述べる。本手法は,複数の科学的,理論的,実践的基準にまたがる,様々なタイプの候補モデルと構造の評価を行う。
論文参考訳（メタデータ） (2024-03-18T14:50:48Z)
Evaluation in Neural Style Transfer: A Review [0.7614628596146599]
既存の評価手法の詳細な分析を行い、現在の評価手法の不整合と限界を特定し、標準化された評価手法の推奨を行う。我々は、ロバストな評価フレームワークの開発により、より有意義で公平な比較が可能になるだけでなく、この分野における研究成果の理解と解釈を高めることができると考えている。
論文参考訳（メタデータ） (2024-01-30T15:45:30Z)
F-Eval: Assessing Fundamental Abilities with Refined Evaluation Methods [102.98899881389211]
F-Evalは、表現、常識、論理などの基本能力を評価するためのバイリンガル評価ベンチマークである。参照不要な主観的タスクに対しては,APIモデルによるスコアの代替として,新たな評価手法を考案する。
論文参考訳（メタデータ） (2024-01-26T13:55:32Z)
Evaluating Agents using Social Choice Theory [21.26784305333596]
我々は、投票理論のレンズを通して、多くの一般的な評価問題を見ることができると論じる。各タスクは別個の投票者として解釈され、全体的な評価を得るためには、通常のランク付けやエージェントのペア比較しか必要としない。これらの評価は解釈可能で柔軟性があり、現在クロスタスク評価に直面している多くの問題を回避している。
論文参考訳（メタデータ） (2023-12-05T20:40:37Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。 KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文参考訳（メタデータ） (2023-03-27T17:45:38Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文参考訳（メタデータ） (2022-05-11T04:00:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。