論文の概要: The Benefits of Diversity: Combining Comparisons and Ratings for Efficient Scoring
- arxiv url: http://arxiv.org/abs/2602.08033v1
- Date: Sun, 08 Feb 2026 16:08:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.943991
- Title: The Benefits of Diversity: Combining Comparisons and Ratings for Efficient Scoring
- Title(参考訳): 多様性の利点:効率の良いスコーリングのための比較とレーティングの組み合わせ
- Authors: Julien Fageot, Matthias Grossglauser, Lê-Nguyên Hoang, Matteo Tacchi-Bénard, Oscar Villemaud,
- Abstract要約: 興味深いことに、どちらの形態の選好誘発も、一つの種類の焦点よりも優れていることが示される。
両信号から学習が可能な統一確率モデルであるSCoRaを紹介する。
- 参考スコア(独自算出の注目度): 9.86498390490516
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Should humans be asked to evaluate entities individually or comparatively? This question has been the subject of long debates. In this work, we show that, interestingly, combining both forms of preference elicitation can outperform the focus on a single kind. More specifically, we introduce SCoRa (Scoring from Comparisons and Ratings), a unified probabilistic model that allows to learn from both signals. We prove that the MAP estimator of SCoRa is well-behaved. It verifies monotonicity and robustness guarantees. We then empirically show that SCoRa recovers accurate scores, even under model mismatch. Most interestingly, we identify a realistic setting where combining comparisons and ratings outperforms using either one alone, and when the accurate ordering of top entities is critical. Given the de facto availability of signals of multiple forms, SCoRa additionally offers a versatile foundation for preference learning.
- Abstract(参考訳): 人間は個々に、あるいは相対的に、エンティティを評価するよう求められるべきか?
この問題は長い議論の対象となっている。
本研究は,両形態の選好誘導を組み合わせることで,一つの種類の焦点よりも優れていることを示す。
具体的には、両信号から学習が可能な統一確率モデルであるSCoRa(Scoring from Comparisons and Ratings)を紹介する。
SCoRaのMAP推定器は良好であることを示す。
モノトニック性とロバスト性を保証する。
次に,モデルミスマッチ下であっても,SCoRaが正確なスコアを復元できることを実証的に示す。
最も興味深いのは、比較と評価の組み合わせが単独でより優れており、トップエンティティの正確な順序が重要である場合の現実的な設定を特定することである。
複数の形式の信号が事実上利用可能であることを考えると、SCoRaは好み学習のための汎用的な基盤を提供する。
関連論文リスト
- Training and Testing with Multiple Splits: A Central Limit Theorem for Split-Sample Estimators [0.0]
私は、複数の分割を平均して、トレーニングにより多くのデータを使用し、テストにサンプル全体を使用し、改善する推論アプローチを開発しています。
通常の近似に基づく信頼区間は,多くのアプリケーションにおいて有効であるが,2つのモデル間での性能を比較するなど,重要な事例が発見できる可能性がある。
ランダム化実験における貧困の予測と不均一な治療効果の学習という,開発と公共経済の2つの重要な問題に適用する。
論文 参考訳(メタデータ) (2025-11-07T03:48:15Z) - Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Reward Modeling with Ordinal Feedback: Wisdom of the Crowd [9.034189257088762]
人間の好みから報酬モデル(RM)を学ぶことは、大きな言語モデルを調整する上で重要な要素である。
順序フィードバックの下でRMを学習するためのフレームワークを提案する。
我々は,Rademacher複雑性の低減の観点から,順序フィードバックの統計的利点を証明した。
論文 参考訳(メタデータ) (2024-11-19T20:17:04Z) - Covariate Assisted Entity Ranking with Sparse Intrinsic Scores [3.2839905453386162]
我々は,新しいモデル同定条件を導入し,正規化された最大推定値の統計率について検討する。
また,本手法を潜在固有スコアを持たないモデルに対する適合性テストに適用する。
論文 参考訳(メタデータ) (2024-07-09T19:58:54Z) - Self-Training with Pseudo-Label Scorer for Aspect Sentiment Quad Prediction [54.23208041792073]
Aspect Sentiment Quad Prediction (ASQP) は、与えられたレビューに対して全てのクワッド(アスペクト項、アスペクトカテゴリー、意見項、感情極性)を予測することを目的としている。
ASQPタスクにおける重要な課題はラベル付きデータの不足であり、既存のメソッドのパフォーマンスを制限している。
そこで我々は,擬似ラベルスコアラーを用いた自己学習フレームワークを提案し,レビューと擬似ラベルの一致をスコアラーが評価する。
論文 参考訳(メタデータ) (2024-06-26T05:30:21Z) - Not All Preference Pairs Are Created Equal: A Recipe for Annotation-Efficient Iterative Preference Learning [81.69044784288005]
反復的な選好学習には、オンラインの注釈付き選好ラベルが必要である。
コスト効率のよいアノテーションに対する応答対を選択するための戦略について検討する。
論文 参考訳(メタデータ) (2024-06-25T06:49:16Z) - Confidence-Based Model Selection: When to Take Shortcuts for
Subpopulation Shifts [119.22672589020394]
モデル信頼度がモデル選択を効果的に導くことができるConfidence-based Model Selection (CosMoS)を提案する。
我々はCosMoSを,データ分散シフトのレベルが異なる複数のテストセットを持つ4つのデータセットで評価した。
論文 参考訳(メタデータ) (2023-06-19T18:48:15Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Preference Modeling with Context-Dependent Salient Features [12.403492796441434]
本稿では,各項目の特徴について,ノイズの多いペアワイド比較から,項目集合のランキングを推定する問題を考察する。
私たちのキーとなる観察は、他の項目から分離して比較した2つの項目は、機能の健全なサブセットのみに基づいて比較できるということです。
論文 参考訳(メタデータ) (2020-02-22T04:05:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。