Fugu-MT 論文翻訳(概要): Score Design for Multi-Criteria Incentivization

論文の概要: Score Design for Multi-Criteria Incentivization

arxiv url: http://arxiv.org/abs/2410.06290v1
Date: Tue, 8 Oct 2024 18:47:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 10:11:01.945455
Title: Score Design for Multi-Criteria Incentivization
Title（参考訳）: マルチクリトリアインセンティブ化のためのスコア設計
Authors: Anmol Kabra, Mina Karzand, Tosca Lechner, Nathan Srebro, Serena Wang,
Abstract要約: パフォーマンス指標を要約するスコアを設計するためのフレームワークを提案する。目的を満足しながら、スコアの寸法を最小化するために設計を定式化します。この枠組みは病院評価システムにおける現実の実践からモチベーションを引き出すもので、誤ったスコアとパフォーマンス指標が意図しない結果をもたらす。
参考スコア（独自算出の注目度）: 24.140631944678336
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a framework for designing scores to summarize performance metrics. Our design has two multi-criteria objectives: (1) improving on scores should improve all performance metrics, and (2) achieving pareto-optimal scores should achieve pareto-optimal metrics. We formulate our design to minimize the dimensionality of scores while satisfying the objectives. We give algorithms to design scores, which are provably minimal under mild assumptions on the structure of performance metrics. This framework draws motivation from real-world practices in hospital rating systems, where misaligned scores and performance metrics lead to unintended consequences.
Abstract（参考訳）: パフォーマンス指標を要約するスコアを設計するためのフレームワークを提案する。本設計では,(1) スコアの改善はすべてのパフォーマンス指標を改善すること,(2) パーエト最適スコアの達成はパーエト最適指標を達成すること,の2つの目的がある。目的を満足しながら、スコアの寸法を最小化するために設計を定式化します。パフォーマンス指標の構造に関する軽度な仮定の下では,最小限のスコアを設計するためのアルゴリズムが提供される。この枠組みは病院評価システムにおける現実の実践からモチベーションを引き出すもので、誤ったスコアとパフォーマンス指標が意図しない結果をもたらす。

関連論文リスト

SparseEval: Efficient Evaluation of Large Language Models by Sparse Optimization [64.95852289011385]
大規模言語モデル(LLM)は拡大を続けており、様々な下流タスクのパフォーマンスは大幅に改善されている。多数のベンチマークサンプルで推論を行うと、高い計算コストが発生するため、それらの能力を評価するのがますます高価になっている。 SparseEvalは,アンカーウェイトを最適化する勾配降下法を初めて導入し,アンカーセレクションに反復的洗練戦略を採用する手法である。
論文参考訳（メタデータ） (2026-02-08T11:12:45Z)
Principled Algorithms for Optimizing Generalized Metrics in Binary Classification [53.604375124674796]
一般化されたメトリクスを最適化するアルゴリズムを導入し、$H$-consistency と finite-sample generalization bounds をサポートする。提案手法は,メトリクス最適化を一般化したコスト依存学習問題として再検討する。我々は,理論性能を保証する新しいアルゴリズムMETROを開発した。
論文参考訳（メタデータ） (2025-12-29T01:33:42Z)
Concepts or Skills? Rethinking Instruction Selection for Multi-modal Models [54.829219574424634]
視覚言語指導チューニングは、視覚概念の学習と視覚スキルの学習という2つの主な目的を達成する。この発見にインスパイアされた我々は、与えられたベンチマークの性能を最適化する単純なトレーニングデータ選択法を設計した。
論文参考訳（メタデータ） (2025-08-14T04:48:38Z)
The Pitfalls of Benchmarking in Algorithm Selection: What We Are Getting Wrong [1.973144426163543]
本稿では,コミュニティで頻繁に発生する方法論的問題に注目し,アルゴリズムの選択手法を評価する際に対処すべき課題について述べる。非形式的特徴やメタモデルは高い精度を達成できることを示すが、十分に設計された評価フレームワークではそうはならない。
論文参考訳（メタデータ） (2025-05-12T16:57:45Z)
Resampling Benchmark for Efficient Comprehensive Evaluation of Large Vision-Language Models [18.309464845180237]
大規模視覚言語モデル(VLM)の効率的な評価プロトコルを提案する。完全なベンチマーク評価に匹敵する結果をもたらすサブセットを構築する。既存のベンチマークにFPSを適用することで、全体的な評価結果との相関が改善される。
論文参考訳（メタデータ） (2025-04-14T08:43:00Z)
Learning to Plan & Reason for Evaluation with Thinking-LLM-as-a-Judge [78.28188747489769]
そこで我々は,Thinking-LLM-as-a-Judgeの優先最適化アルゴリズムであるEvalPlannerを提案する。自己学習ループでは、EvalPlannerは、合成的に構築された評価計画と実行よりも反復的に最適化する。提案手法はRewardBenchにおける生成報酬モデルのための新しい最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-30T02:21:59Z)
Foundations of the Theory of Performance-Based Ranking [10.89980029564174]
性能に基づくランク付けのための普遍理論の基礎を確立する。ランキングスコアと呼ばれる普遍的なパラメトリックのスコアは、私たちの公理を満たすランクを確立するために使用できる。 2クラス分類の場合、ランキングスコアのファミリーは、よく知られたパフォーマンススコアを含んでいることを示す。
論文参考訳（メタデータ） (2024-12-05T15:05:25Z)
Benchmarking End-To-End Performance of AI-Based Chip Placement Algorithms [77.71341200638416]
ChiPBenchはAIベースのチップ配置アルゴリズムの有効性を評価するために設計されたベンチマークである。評価のために、さまざまなドメイン(CPU、GPU、マイクロコントローラなど)から20の回路を集めました。その結果, 単点アルゴリズムの中間距離が支配的であったとしても, 最終的なPPA結果は満足できないことがわかった。
論文参考訳（メタデータ） (2024-07-03T03:29:23Z)
Improving the Validity and Practical Usefulness of AI/ML Evaluations Using an Estimands Framework [2.4861619769660637]
本稿では,国際臨床治験ガイドラインを応用した評価フレームワークを提案する。このフレームワークは、評価の推測と報告のための体系的な構造を提供する。我々は、このフレームワークが根底にある問題、その原因、潜在的な解決策を明らかにするのにどのように役立つかを実証する。
論文参考訳（メタデータ） (2024-06-14T18:47:37Z)
Unifying Feature and Cost Aggregation with Transformers for Semantic and Visual Correspondence [51.54175067684008]
本稿では,高密度マッチングタスク用に設計されたTransformerベースの積分機能とコスト集約ネットワークを提案する。まず, 特徴集約とコスト集約が異なる特徴を示し, 双方の集約プロセスの司法的利用から生じる実質的な利益の可能性を明らかにした。本フレームワークは意味マッチングのための標準ベンチマークで評価され,また幾何マッチングにも適用された。
論文参考訳（メタデータ） (2024-03-17T07:02:55Z)
Lower-Left Partial AUC: An Effective and Efficient Optimization Metric for Recommendation [52.45394284415614]
我々は,AUCのように計算効率が良く,Top-Kランキングの指標と強く相関する新しい最適化指標であるLLPAUCを提案する。 LLPAUCはローワーレフト角のROC曲線の下の部分領域のみを考慮し、最適化はトップKに焦点をあてる。
論文参考訳（メタデータ） (2024-02-29T13:58:33Z)
Design and Architecture for a Centralized, Extensible, and Configurable Scoring Application [0.0]
現在の組織では、アプリケーションワークフローの次のステップを決定するために、多くのソフトウェアアプリケーションが重要な入力を必要としています。本稿では、汎用最適化されたスコアリングエンジンの構想と設計方法について論じる。
論文参考訳（メタデータ） (2023-12-10T02:31:23Z)
Do Performance Aspirations Matter for Guiding Software Configuration Tuning? [6.492599077364121]
そこで本研究では,アスピレーションの現実主義が,チューニングの指導に使用すべきかどうかを決定する鍵となる要素であることを示す。利用可能なチューニング予算は、願望の選択にも影響を及ぼすが、現実的ではない。
論文参考訳（メタデータ） (2023-01-09T12:11:05Z)
Design Target Achievement Index: A Differentiable Metric to Enhance Deep Generative Models in Multi-Objective Inverse Design [4.091593765662773]
設計目標達成指標(Design Target Achievement Index, DTAI)は、設計者が指定した最小パフォーマンス目標を達成するための設計能力を評価する、微分可能で調整可能な指標である。 DTAIをPaDGAN(Performance-Augmented Diverse GAN)に適用し,ベースラインのDeep Generative Modelよりも優れた生成性能を示す。
論文参考訳（メタデータ） (2022-05-06T04:14:34Z)
QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文参考訳（メタデータ） (2021-12-16T00:38:35Z)
Rethinking Counting and Localization in Crowds:A Purely Point-Based Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文参考訳（メタデータ） (2021-07-27T11:41:50Z)
MetricOpt: Learning to Optimize Black-Box Evaluation Metrics [21.608384691401238]
誤分類率やリコールなどのタスク評価指標を任意に最適化する問題について検討する。 MetricOptと呼ばれる私たちの方法は、ターゲットメトリックの計算詳細が不明なブラックボックス設定で動作します。我々は、コンパクトなタスク固有のモデルパラメータを計量観測にマップする微分可能値関数を学習することでこれを達成する。
論文参考訳（メタデータ） (2021-04-21T16:50:01Z)
A Unified Framework of Surrogate Loss by Refactoring and Interpolation [65.60014616444623]
勾配勾配を有する深層ネットワークのトレーニングにおいて,サロゲート損失を発生させる統一フレームワークUniLossを導入する。 3つのタスクと4つのデータセットに対するUniLossの有効性を検証する。
論文参考訳（メタデータ） (2020-07-27T21:16:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。