論文の概要: A Theoretical Framework for Adaptive Utility-Weighted Benchmarking
- arxiv url: http://arxiv.org/abs/2602.12356v1
- Date: Thu, 12 Feb 2026 19:33:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.728143
- Title: A Theoretical Framework for Adaptive Utility-Weighted Benchmarking
- Title(参考訳): Adaptive Utility-Weighted Benchmarkingのための理論的フレームワーク
- Authors: Philip Waggoner,
- Abstract要約: 本稿では,ベンチマークを重み付けによる評価指標,モデルコンポーネント,利害関係者グループとして再認識する理論的枠組みを提案する。
コンジョイント由来のユーティリティとHuman-in-the-loop更新ルールを用いて、人間のトレードオフをベンチマーク構造に組み込む方法と、ベンチマークが安定性と解釈可能性を維持しながら動的に進化する方法を定式化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Benchmarking has long served as a foundational practice in machine learning and, increasingly, in modern AI systems such as large language models, where shared tasks, metrics, and leaderboards offer a common basis for measuring progress and comparing approaches. As AI systems are deployed in more varied and consequential settings, though, there is growing value in complementing these established practices with a more holistic conceptualization of what evaluation should represent. Of note, recognizing the sociotechnical contexts in which these systems operate invites an opportunity for a deeper view of how multiple stakeholders and their unique priorities might inform what we consider meaningful or desirable model behavior. This paper introduces a theoretical framework that reconceptualizes benchmarking as a multilayer, adaptive network linking evaluation metrics, model components, and stakeholder groups through weighted interactions. Using conjoint-derived utilities and a human-in-the-loop update rule, we formalize how human tradeoffs can be embedded into benchmark structure and how benchmarks can evolve dynamically while preserving stability and interpretability. The resulting formulation generalizes classical leaderboards as a special case and provides a foundation for building evaluation protocols that are more context aware, resulting in new robust tools for analyzing the structural properties of benchmarks, which opens a path toward more accountable and human-aligned evaluation.
- Abstract(参考訳): ベンチマークは長年、機械学習の基礎的なプラクティスとして機能し、大規模言語モデルのような現代のAIシステムでは、タスクの共有やメトリクス、リーダボードが進捗測定やアプローチ比較の共通基盤を提供するようになっている。
しかし、AIシステムはより多様で連続的な設定でデプロイされるため、これらの確立したプラクティスを、評価が表現すべきものをより包括的に概念化することで補完する価値は高まっている。
注意すべき点として、これらのシステムが機能する社会技術的文脈を認識することは、複数の利害関係者とその独特な優先順位が、私たちが意味のある、あるいは望ましいモデル行動と考えるものをどう伝えるかについて、より深く理解する機会を与える。
本稿では,ベンチマークを重み付けによる評価指標,モデルコンポーネント,利害関係者グループとして再認識する理論的枠組みを提案する。
コンジョイント由来のユーティリティとHuman-in-the-loop更新ルールを用いて、人間のトレードオフをベンチマーク構造に組み込む方法と、ベンチマークが安定性と解釈可能性を維持しながら動的に進化する方法を定式化する。
この定式化は、古典的リーダーボードを特殊なケースとして一般化し、よりコンテキストを意識した評価プロトコルを構築するための基盤を提供し、その結果、ベンチマークの構造的特性を分析するための新しい堅牢なツールを生み出し、より説明責任と人道的な評価への道を開く。
関連論文リスト
- Efficient Generalization via Multimodal Co-Training under Data Scarcity and Distribution Shift [0.6331016589903705]
マルチモーダルコトレーニングは、ラベル付きデータが制限された状況におけるモデル一般化を強化するように設計されている。
この枠組みの理論的基礎を考察し、ラベルなしデータの使用が一般化の著しい改善につながる条件を導出する。
我々は、初めてマルチモーダルなコトレーニングコンテキストにおいて、ラベルのないマルチモーダルデータを活用することで得られる利点を分解し、定量化する新しい一般化境界を確立する。
論文 参考訳(メタデータ) (2025-10-08T20:13:17Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - A Backdoor-based Explainable AI Benchmark for High Fidelity Evaluation of Attributions [60.06461883533697]
まず、属性手法の信頼性ベンチマークが満たすであろう信頼度基準のセットを同定する。
次に、望ましい忠実度基準に準拠したBackdoorベースのeXplainable AIベンチマーク(BackX)を紹介します。
我々の分析はまた、属性を利用して神経トロイの木馬を守るための洞察を提供する。
論文 参考訳(メタデータ) (2024-05-02T13:48:37Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - A Computational Model of the Institutional Analysis and Development
Framework [0.0]
この研究は、IADフレームワークを計算モデルに変える最初の試みである。
IADフレームワークのコンポーネントに合わせて構文を調整し、社会的相互作用の記述に使用するアクション状況言語(ASL)を定義します。
これらのモデルはゲーム理論の標準的なツールを用いて分析し、どの結果が最もインセンティブ付けされているかを予測し、社会的に関係のある性質に基づいて評価することができる。
論文 参考訳(メタデータ) (2021-05-27T13:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。