論文の概要: Towards Ecologically Valid LLM Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners
- arxiv url: http://arxiv.org/abs/2511.05501v1
- Date: Tue, 30 Sep 2025 21:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.151132
- Title: Towards Ecologically Valid LLM Benchmarks: Understanding and Designing Domain-Centered Evaluations for Journalism Practitioners
- Title(参考訳): 生態学的に妥当なLCMベンチマークに向けて:ジャーナリズム実践者を対象としたドメイン中心評価の理解と設計
- Authors: Charlotte Li, Nick Hagar, Sachita Nishal, Jeremy Gilbert, Nick Diakopoulos,
- Abstract要約: ベンチマークは、研究者や一般大衆が生成AIシステムをどのように理解するかにおいて重要な役割を果たす。
モデル機能に関するコミュニケーションにベンチマークスコアが広く使用されていることから、妥当性に対する批判が生まれている。
本研究では、人間中心のアプローチでこれらの問題に対処するLLMベンチマークの作成方法について検討する。
- 参考スコア(独自算出の注目度): 2.0388938295521575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarks play a significant role in how researchers and the public understand generative AI systems. However, the widespread use of benchmark scores to communicate about model capabilities has led to criticisms of validity, especially whether benchmarks test what they claim to test (i.e. construct validity) and whether benchmark evaluations are representative of how models are used in the wild (i.e. ecological validity). In this work we explore how to create an LLM benchmark that addresses these issues by taking a human-centered approach. We focus on designing a domain-oriented benchmark for journalism practitioners, drawing on insights from a workshop of 23 journalism professionals. Our workshop findings surface specific challenges that inform benchmark design opportunities, which we instantiate in a case study that addresses underlying criticisms and specific domain concerns. Through our findings and design case study, this work provides design guidance for developing benchmarks that are better tuned to specific domains.
- Abstract(参考訳): ベンチマークは、研究者や一般大衆が生成AIシステムをどのように理解するかにおいて重要な役割を果たす。
しかし、モデル機能についてのコミュニケーションにベンチマークスコアが広く使われることで、特にベンチマークがテスト対象をテストしているかどうか(構成妥当性)や、ベンチマーク評価が野生でのモデルの使用方法(生態的妥当性)を代表しているかどうかなど、妥当性が批判されている。
本研究では、人間中心のアプローチでこれらの問題に対処するLLMベンチマークの作成方法について検討する。
我々は、ジャーナリズム専門家23人のワークショップから洞察を得て、ジャーナリズム実践者のためのドメイン指向ベンチマークを設計することに注力する。
我々のワークショップは、ベンチマーク設計の機会を知らせる特定の課題を明らかにし、根底にある批判や特定のドメインの懸念に対処するケーススタディをインスタンス化する。
この研究は、我々の発見と設計ケーススタディを通じて、特定のドメインに適応したベンチマークを開発するための設計ガイダンスを提供する。
関連論文リスト
- Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Deprecating Benchmarks: Criteria and Framework [2.6449913368815516]
ベンチマークを完全にあるいは部分的に非推奨にする時期を決定するための基準と、ベンチマークを非推奨にするフレームワークを提案する。
我々の研究は、特にフロンティアモデルにおいて、厳格で高品質な評価に向けたベンチマークの状況を改善することを目的としている。
論文 参考訳(メタデータ) (2025-07-08T22:29:06Z) - Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks [16.696044684014435]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)で人気が高まっている。
この分野での有効性を 理解するためには 有効性の評価が不可欠です
本稿では、291ベンチマークの徹底的なレビューを行い、どのベンチマークが利用可能か、どのようにベンチマークを構築しているか、これらのベンチマークの将来展望の3つの主要な側面に対処する。
論文 参考訳(メタデータ) (2025-05-13T18:45:10Z) - RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。
通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文 参考訳(メタデータ) (2025-01-24T13:48:10Z) - More than Marketing? On the Information Value of AI Benchmarks for Practitioners [42.73526862595375]
学術分野では、公開ベンチマークは一般的に研究の進展を捉えるのに適した指標と見なされた。
製品や政策において、ベンチマークは実質的な決定を下すのに不十分であることがしばしば見出された。
有効なベンチマークは、意味のある実世界の評価を提供し、ドメインの専門知識を取り入れ、スコープと目標の透明性を維持するべきであると結論付けています。
論文 参考訳(メタデータ) (2024-12-07T03:35:39Z) - BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。
私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文 参考訳(メタデータ) (2024-11-20T02:38:24Z) - ECBD: Evidence-Centered Benchmark Design for NLP [95.50252564938417]
ベンチマーク設計プロセスを5つのモジュールに形式化するフレームワークであるEvidence-Centered Benchmark Design (ECBD)を提案する。
各モジュールは、ベンチマーク設計の選択を記述し、正当化し、サポートする必要がある。
分析の結果,ベンチマークの妥当性を脅かす可能性のあるベンチマーク設計とドキュメントの共通する傾向が明らかになった。
論文 参考訳(メタデータ) (2024-06-13T00:59:55Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。