論文の概要: Score Design for Multi-Criteria Incentivization
- arxiv url: http://arxiv.org/abs/2410.06290v1
- Date: Tue, 8 Oct 2024 18:47:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 10:11:01.945455
- Title: Score Design for Multi-Criteria Incentivization
- Title(参考訳): マルチクリトリアインセンティブ化のためのスコア設計
- Authors: Anmol Kabra, Mina Karzand, Tosca Lechner, Nathan Srebro, Serena Wang,
- Abstract要約: パフォーマンス指標を要約するスコアを設計するためのフレームワークを提案する。
目的を満足しながら、スコアの寸法を最小化するために設計を定式化します。
この枠組みは病院評価システムにおける現実の実践からモチベーションを引き出すもので、誤ったスコアとパフォーマンス指標が意図しない結果をもたらす。
- 参考スコア(独自算出の注目度): 24.140631944678336
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for designing scores to summarize performance metrics. Our design has two multi-criteria objectives: (1) improving on scores should improve all performance metrics, and (2) achieving pareto-optimal scores should achieve pareto-optimal metrics. We formulate our design to minimize the dimensionality of scores while satisfying the objectives. We give algorithms to design scores, which are provably minimal under mild assumptions on the structure of performance metrics. This framework draws motivation from real-world practices in hospital rating systems, where misaligned scores and performance metrics lead to unintended consequences.
- Abstract(参考訳): パフォーマンス指標を要約するスコアを設計するためのフレームワークを提案する。
本設計では,(1) スコアの改善はすべてのパフォーマンス指標を改善すること,(2) パーエト最適スコアの達成はパーエト最適指標を達成すること,の2つの目的がある。
目的を満足しながら、スコアの寸法を最小化するために設計を定式化します。
パフォーマンス指標の構造に関する軽度な仮定の下では,最小限のスコアを設計するためのアルゴリズムが提供される。
この枠組みは病院評価システムにおける現実の実践からモチベーションを引き出すもので、誤ったスコアとパフォーマンス指標が意図しない結果をもたらす。
関連論文リスト
- Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。
完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。
既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文 参考訳(メタデータ) (2025-04-14T08:43:00Z) - Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。
自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。
提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2025-01-30T02:21:59Z) - Foundations of the Theory of Performance-Based Ranking [10.89980029564174]
性能に基づくランク付けのための普遍理論の基礎を確立する。
ランキングスコアと呼ばれる普遍的なパラメトリックのスコアは、私たちの公理を満たすランクを確立するために使用できる。
2クラス分類の場合、ランキングスコアのファミリーは、よく知られたパフォーマンススコアを含んでいることを示す。
論文 参考訳(メタデータ) (2024-12-05T15:05:25Z) - Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms [77.71341200638416]
ChiPBenchはAIベースのチップ配置アルゴリズムの有効性を評価するために設計されたベンチマークである。
評価のために、さまざまなドメイン(CPU、GPU、マイクロコントローラなど)から20の回路を集めました。
その結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPA結果は満足できないことがわかった。
論文 参考訳(メタデータ) (2024-07-03T03:29:23Z) - Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。
このフレームワークは、評価の推測と報告のための体系的な構造を提供する。
我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文 参考訳(メタデータ) (2024-06-14T18:47:37Z) - Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。
まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。
本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文 参考訳(メタデータ) (2024-03-17T07:02:55Z) - Lower-Left Partial AUC: An Effective and Efficient Optimization Metric
for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。
LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文 参考訳(メタデータ) (2024-02-29T13:58:33Z) - Design and Architecture for a Centralized, Extensible, and Configurable
Scoring Application [0.0]
現在の組織では、アプリケーションワークフローの次のステップを決定するために、多くのソフトウェアアプリケーションが重要な入力を必要としています。
本稿では、汎用最適化されたスコアリングエンジンの構想と設計方法について論じる。
論文 参考訳(メタデータ) (2023-12-10T02:31:23Z) - Do Performance Aspirations Matter for Guiding Software Configuration
Tuning? [6.492599077364121]
そこで本研究では,アスピレーションの現実主義が,チューニングの指導に使用すべきかどうかを決定する鍵となる要素であることを示す。
利用可能なチューニング予算は、願望の選択にも影響を及ぼすが、現実的ではない。
論文 参考訳(メタデータ) (2023-01-09T12:11:05Z) - Design Target Achievement Index: A Differentiable Metric to Enhance Deep
Generative Models in Multi-Objective Inverse Design [4.091593765662773]
設計目標達成指標(Design Target Achievement Index, DTAI)は、設計者が指定した最小パフォーマンス目標を達成するための設計能力を評価する、微分可能で調整可能な指標である。
DTAIをPaDGAN(Performance-Augmented Diverse GAN)に適用し,ベースラインのDeep Generative Modelよりも優れた生成性能を示す。
論文 参考訳(メタデータ) (2022-05-06T04:14:34Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - Rethinking Counting and Localization in Crowds:A Purely Point-Based
Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。
我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文 参考訳(メタデータ) (2021-07-27T11:41:50Z) - MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。
MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。
我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文 参考訳(メタデータ) (2021-04-21T16:50:01Z) - A Unified Framework of Surrogate Loss by Refactoring and Interpolation [65.60014616444623]
勾配勾配を有する深層ネットワークのトレーニングにおいて,サロゲート損失を発生させる統一フレームワークUniLossを導入する。
3つのタスクと4つのデータセットに対するUniLossの有効性を検証する。
論文 参考訳(メタデータ) (2020-07-27T21:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。