論文の概要: Human-Centric Evaluation for Foundation Models
- arxiv url: http://arxiv.org/abs/2506.01793v1
- Date: Mon, 02 Jun 2025 15:33:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 04:22:50.769112
- Title: Human-Centric Evaluation for Foundation Models
- Title(参考訳): 基礎モデルの人間中心評価
- Authors: Yijin Guo, Kaiyuan Ji, Xiaorong Zhu, Junying Wang, Farong Wen, Chunyi Li, Zicheng Zhang, Guangtao Zhai,
- Abstract要約: 本稿では,問題解決能力,情報品質,インタラクション体験の3つの要素に着目した人間中心型主観評価フレームワークを提案する。
我々は540以上の参加者主導による評価を行い、人間とモデルはオープンエンドの研究タスクで協力する。
この結果からGrok 3の優れたパフォーマンスが注目され、続いてDeepseek R1とGemini 2.5が続き、OpenAI o3が遅れています。
- 参考スコア(独自算出の注目度): 31.400215906308546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, nearly all evaluations of foundation models focus on objective metrics, emphasizing quiz performance to define model capabilities. While this model-centric approach enables rapid performance assessment, it fails to reflect authentic human experiences. To address this gap, we propose a Human-Centric subjective Evaluation (HCE) framework, focusing on three core dimensions: problem-solving ability, information quality, and interaction experience. Through experiments involving Deepseek R1, OpenAI o3 mini, Grok 3, and Gemini 2.5, we conduct over 540 participant-driven evaluations, where humans and models collaborate on open-ended research tasks, yielding a comprehensive subjective dataset. This dataset captures diverse user feedback across multiple disciplines, revealing distinct model strengths and adaptability. Our findings highlight Grok 3's superior performance, followed by Deepseek R1 and Gemini 2.5, with OpenAI o3 mini lagging behind. By offering a novel framework and a rich dataset, this study not only enhances subjective evaluation methodologies but also lays the foundation for standardized, automated assessments, advancing LLM development for research and practical scenarios. Our dataset link is https://github.com/yijinguo/Human-Centric-Evaluation.
- Abstract(参考訳): 現在、基礎モデルのほぼすべての評価は客観的なメトリクスに焦点を当てており、モデルの能力を定義するためにクイズのパフォーマンスを強調しています。
このモデル中心のアプローチは、迅速なパフォーマンス評価を可能にするが、真の人間の経験を反映しない。
このギャップに対処するために、問題解決能力、情報品質、相互作用経験の3つの中核的な側面に焦点を当てたHuman-Centric subjective Evaluation (HCE)フレームワークを提案する。
Deepseek R1、OpenAI o3 mini、Grok 3、Gemini 2.5といった実験を通じて、540以上の参加者主導による評価を実施しました。
このデータセットは、さまざまな分野にわたる多様なユーザフィードバックをキャプチャし、異なるモデルの強みと適応性を明らかにします。
この結果からGrok 3の優れたパフォーマンスが注目され、続いてDeepseek R1とGemini 2.5が続き、OpenAI o3が遅れています。
本研究は,新たなフレームワークとリッチデータセットを提供することにより,主観的評価手法の強化だけでなく,標準化された自動評価の基礎を築いた。
データセットリンクはhttps://github.com/yijinguo/Human-Centric-Evaluationです。
関連論文リスト
- Minos: A Multimodal Evaluation Model for Bidirectional Generation Between Image and Text [51.149562188883486]
我々は,人間とGPTの両方による評価データを組み合わせた大規模マルチモーダル評価データセットであるMinos-Corpusを紹介する。
このコーパスに基づいて,データ選択とバランス,混合SFTトレーニング手法を提案し,DPOをミノの開発に適用する。
論文 参考訳(メタデータ) (2025-06-03T06:17:16Z) - From Rankings to Insights: Evaluation Should Shift Focus from Leaderboard to Feedback [36.68929551237421]
包括的できめ細かい結果を提供する評価フレームワークであるbftextFeedbackerを紹介します。
プロジェクトのホームページとデータセットはhttps://liudan193.io/Feedbacker.comで公開されています。
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - UPME: An Unsupervised Peer Review Framework for Multimodal Large Language Model Evaluation [36.40760924116748]
VQA(Visual Question Answering)の課題に対処するためにMLLM(Multimodal Large Language Models)が登場した。
既存の評価手法では、視覚画像のQ&Aペアを設計するために必要な人的負担がかなり大きいため、限界に直面している。
本研究では,モデルが質問を自動的に生成し,他のモデルからの回答のピアレビュー評価を行うことのできる,教師なしピアレビューMLLM評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T07:15:41Z) - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution [74.41064280094064]
textbfJudger-1は、最初のオープンソースのtextbfall-in-one judge LLMである。
CompassJudger-1は、優れた汎用性を示す汎用LLMである。
textbfJudgerBenchは、様々な主観評価タスクを含む新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-21T17:56:51Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Benchmarking and Analyzing 3D Human Pose and Shape Estimation Beyond
Algorithms [31.2529724533643]
この研究は、アルゴリズム以外の3つの未探索視点からの最初の総合的なベンチマーク研究を示す。
31のデータセットの分析では、データサンプルの異なる影響が明らかになっている。
比較的単純なモデルで3DPWテストセットで47.3mmのPA-MPJPEを実現する。
論文 参考訳(メタデータ) (2022-09-21T17:39:53Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z) - Group-Level Emotion Recognition Using a Unimodal Privacy-Safe
Non-Individual Approach [0.0]
本稿は、Emotion Recognition in the Wild (EmotiW) Challenge 2020 1における、オーディオビデオグループ感情認識サブタスクに対する、プライバシー保護と非個人的提案について紹介する。
論文 参考訳(メタデータ) (2020-09-15T12:25:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。