論文の概要: Benchmarks as Microscopes: A Call for Model Metrology
- arxiv url: http://arxiv.org/abs/2407.16711v1
- Date: Mon, 22 Jul 2024 17:52:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 17:52:45.643759
- Title: Benchmarks as Microscopes: A Call for Model Metrology
- Title(参考訳): 顕微鏡としてのベンチマーク - モデルメトロロジーへのコール
- Authors: Michael Saxon, Ari Holtzman, Peter West, William Yang Wang, Naomi Saphra,
- Abstract要約: 現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
- 参考スコア(独自算出の注目度): 76.64402390208576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models (LMs) pose a new challenge in capability assessment. Static benchmarks inevitably saturate without providing confidence in the deployment tolerances of LM-based systems, but developers nonetheless claim that their models have generalized traits such as reasoning or open-domain language understanding based on these flawed metrics. The science and practice of LMs requires a new approach to benchmarking which measures specific capabilities with dynamic assessments. To be confident in our metrics, we need a new discipline of model metrology -- one which focuses on how to generate benchmarks that predict performance under deployment. Motivated by our evaluation criteria, we outline how building a community of model metrology practitioners -- one focused on building tools and studying how to measure system capabilities -- is the best way to meet these needs to and add clarity to the AI discussion.
- Abstract(参考訳): 現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
静的ベンチマークは、LMベースのシステムのデプロイメント耐性に自信を持たずに必然的に飽和するが、それでも開発者は、彼らのモデルは、これらの欠陥のあるメトリクスに基づいた推論やオープンドメイン言語理解のような一般化された特徴を持っていると主張している。
LMの科学と実践は、動的アセスメントで特定の能力を測定するベンチマークに新しいアプローチを必要とする。
メトリクスに自信を持つためには、モデルメロジ – デプロイメント中のパフォーマンスを予測するベンチマークの生成方法に焦点を当てた、モデルメロジの新たな規律が必要です。評価基準によって、モデルメロジ実践者のコミュニティの構築 — ツールの構築とシステム機能の測定方法の研究 – が、これらのニーズを満たす最善の方法であり、AI議論に明快さを加える方法である、と概説します。
関連論文リスト
- Aligning Vision Models with Human Aesthetics in Retrieval: Benchmarks and Algorithms [91.19304518033144]
検索システムにおける視覚モデルと人間の審美基準の整合を図る。
本研究では、視覚モデルと人間の美学をよりよく整合させるために、視覚モデルを微調整する嗜好に基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:20Z) - EXACT: Towards a platform for empirically benchmarking Machine Learning model explanation methods [1.6383837447674294]
本稿では、初期ベンチマークプラットフォームにおいて、様々なベンチマークデータセットと新しいパフォーマンス指標をまとめる。
我々のデータセットには、クラス条件の特徴に対する真実の説明が組み込まれています。
このプラットフォームは、それらが生成する説明の品質において、ポストホックなXAIメソッドのパフォーマンスを評価する。
論文 参考訳(メタデータ) (2024-05-20T14:16:06Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence [5.454656183053655]
我々は23の最先端のLarge Language Modelsベンチマークを批判的に評価する。
私たちの研究は、偏見、真の推論を測ることの難しさなど、重大な制限を発見しました。
静的ベンチマークから動的行動プロファイリングへの進化を提唱する。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Revisiting Instruction Fine-tuned Model Evaluation to Guide Industrial
Applications [11.035667183761207]
インストラクションファインチューニング(IFT)は、大規模言語モデル(LLM)のゼロショット機能を強化する強力なパラダイムである。
LLMに基づくメトリクスをこれらの要件に適合させることを示し、それらを活用してタスク特殊化戦略の調査を行う。
本研究は,実世界のIFTモデル展開の実践者に対して,実用的な洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-21T20:04:55Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Evaluation Gaps in Machine Learning Practice [13.963766987258161]
実際に、機械学習モデルの評価は、しばしば、非文脈化された予測行動の狭い範囲に焦点を当てる。
評価対象の理想化された幅と実際の評価対象の狭い焦点との間の評価ギャップについて検討した。
これらの特性を研究することで、規範的な影響を持つコミットメントの範囲について、機械学習分野の暗黙の仮定を実証する。
論文 参考訳(メタデータ) (2022-05-11T04:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。