論文の概要: Evaluating LLM Metrics Through Real-World Capabilities
- arxiv url: http://arxiv.org/abs/2505.08253v1
- Date: Tue, 13 May 2025 06:02:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.440625
- Title: Evaluating LLM Metrics Through Real-World Capabilities
- Title(参考訳): LLMメトリクスのリアルタイム能力による評価
- Authors: Justin K Miller, Wenjia Tang,
- Abstract要約: 大規模調査データと利用ログを分析し,Large Language Models(LLM)の使用方法を示す6つのコア機能を特定する。
次に、既存のベンチマークがこれらの機能をカバーする範囲を評価し、カバレッジ、効率測定、解釈可能性に大きなギャップがあることを明らかにする。
6つの機能のうち4つは、実世界のタスクに最適なベンチマークを特定し、それらを主要なモデルの比較に使用します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As generative AI becomes increasingly embedded in everyday workflows, it is important to evaluate its performance in ways that reflect real-world usage rather than abstract notions of intelligence. Unlike many existing benchmarks that assess general intelligence, our approach focuses on real-world utility, evaluating how well models support users in everyday tasks. While current benchmarks emphasize code generation or factual recall, users rely on AI for a much broader range of activities-from writing assistance and summarization to citation formatting and stylistic feedback. In this paper, we analyze large-scale survey data and usage logs to identify six core capabilities that represent how people commonly use Large Language Models (LLMs): Summarization, Technical Assistance, Reviewing Work, Data Structuring, Generation, and Information Retrieval. We then assess the extent to which existing benchmarks cover these capabilities, revealing significant gaps in coverage, efficiency measurement, and interpretability. Drawing on this analysis, we use human-centered criteria to identify gaps in how well current benchmarks reflect common usage that is grounded in five practical criteria: coherence, accuracy, clarity, relevance, and efficiency. For four of the six capabilities, we identify the benchmarks that best align with real-world tasks and use them to compare leading models. We find that Google Gemini outperforms other models-including OpenAI's GPT, xAI's Grok, Meta's LLaMA, Anthropic's Claude, DeepSeek, and Qwen from Alibaba-on these utility-focused metrics.
- Abstract(参考訳): ジェネレーティブAIが日常のワークフローに組み込まれるようになるにつれて、インテリジェンスという抽象的な概念よりも、現実の使い方を反映した方法で、そのパフォーマンスを評価することが重要である。
一般的なインテリジェンスを評価する既存のベンチマークとは異なり、我々のアプローチは現実世界のユーティリティに焦点を当て、日々のタスクにおいてモデルがいかにユーザをサポートするかを評価する。
現在のベンチマークでは、コード生成やファクトリコールが重視されているが、ユーザは、書き込みアシストや要約から引用フォーマット、スタイル的なフィードバックに至るまで、はるかに幅広いアクティビティにAIを頼っている。
本稿では,大規模言語モデル(LLM)の一般的な使用方法を示す6つのコア機能(要約,技術支援,レビュー作業,データ構造化,生成,情報検索)を明らかにするために,大規模調査データと利用ログを分析した。
次に、既存のベンチマークがこれらの機能をカバーする範囲を評価し、カバレッジ、効率測定、解釈可能性に大きなギャップがあることを明らかにする。
この分析に基づいて、我々は人間中心の基準を用いて、現在のベンチマークがコヒーレンス、正確性、明確性、妥当性、効率の5つの実践的な基準に根ざした、一般的な使用状況をどの程度反映しているかのギャップを特定する。
6つの機能のうち4つは、実世界のタスクに最適なベンチマークを特定し、それらを主要なモデルの比較に使用します。
Google Geminiは、OpenAIのGPT、xAIのGrok、MetaのLLaMA、AnthropicのClaude、DeepSeek、Qwenなど、Alibabaのこれらのユーティリティにフォーカスした指標で、他のモデルよりも優れています。
関連論文リスト
- Human Re-ID Meets LVLMs: What can we expect? [14.370360290704197]
人間の再識別作業における主要な視覚言語モデルの性能を比較した。
以上の結果から,LVLMの強度は確認できたが,破滅的な回答につながる場合が多い。
論文 参考訳(メタデータ) (2025-01-30T19:00:40Z) - Improving LLM Leaderboards with Psychometrical Methodology [0.0]
大規模言語モデル(LLM)の急速な開発は、その性能を評価するためにベンチマークの作成を必要としている。
これらのベンチマークは、人間のテストや調査に似ており、これらのシステムの認知行動における創発性を測定するために設計された質問で構成されている。
しかし、社会科学でよく定義された特徴や能力とは異なり、これらのベンチマークによって測定される特性は曖昧で厳密に定義されていないことが多い。
論文 参考訳(メタデータ) (2025-01-27T21:21:46Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Mapping global dynamics of benchmark creation and saturation in
artificial intelligence [5.233652342195164]
ベンチマークの作成と飽和のグローバルなダイナミクスのマップを作成します。
コンピュータビジョンと自然言語処理の全領域をカバーする1688ベンチマークのデータをキュレートした。
論文 参考訳(メタデータ) (2022-03-09T09:16:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。