論文の概要: Aligned Textual Scoring Rules
- arxiv url: http://arxiv.org/abs/2507.06221v1
- Date: Tue, 08 Jul 2025 17:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.434891
- Title: Aligned Textual Scoring Rules
- Title(参考訳): テキストのアライメント・スコーリング規則
- Authors: Yuxuan Lu, Yifan Wu, Jason Hartline, Michael J. Curry,
- Abstract要約: エージェントの観点からは、真の信念を報告することが期待されるスコアを最大化するならば、スコアリングルールは適切である。
本論文は、適切なスコアリングルールと基準スコアの平均二乗誤差を最適化し、最小化することにより、テキストのアラインド・スコーリング・ルール(ASR)を設計する。
- 参考スコア(独自算出の注目度): 14.705645899416117
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scoring rules elicit probabilistic predictions from a strategic agent by scoring the prediction against a ground truth state. A scoring rule is proper if, from the agent's perspective, reporting the true belief maximizes the expected score. With the development of language models, Wu and Hartline (2024) proposes a reduction from textual information elicitation to the numerical (i.e. probabilistic) information elicitation problem, which achieves provable properness for textual elicitation. However, not all proper scoring rules are well aligned with human preference over text. Our paper designs the Aligned Scoring rule (ASR) for text by optimizing and minimizing the mean squared error between a proper scoring rule and a reference score (e.g. human score). Our experiments show that our ASR outperforms previous methods in aligning with human preference while maintaining properness.
- Abstract(参考訳): スコアリング規則は、地上の真理状態に対して予測をスコアリングすることにより、戦略エージェントから確率予測を導き出す。
エージェントの観点からは、真の信念を報告することが期待されるスコアを最大化するならば、スコアリングルールは適切である。
言語モデルの開発に伴い、Wu と Hartline (2024) は、テキスト情報引用から数値的(確率的)情報引用問題への還元を提案し、テキスト情報引用の証明可能な適性を実現する。
しかし、すべての適切なスコアリングルールが、テキストよりも人間の好みによく適合しているわけではない。
本論文は、適切なスコアリングルールと基準スコア(例えば人間スコア)の平均二乗誤差を最適化し、最小化することにより、テキストのアラインド・スコーリング・ルール(ASR)を設計する。
実験の結果,ASRは人間の嗜好に適合しながら適正性を保ちつつ,従来の手法よりも優れていたことがわかった。
関連論文リスト
- PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Reducing Biases in Record Matching Through Scores Calibration [1.5530839016602822]
スコアバイアスの測定と低減のためのしきい値に依存しないフレームワークを提案する。
基準しきい値に基づく基準値の下では公平に見えても,いくつかの最先端マッチング手法がかなりのスコアバイアスを示すことを示す。
本稿では,2つのポストプロセッシングスコアキャリブレーションアルゴリズムを導入する。第1のキャリブは,ワッサーシュタイン・バリセンタを用いてグループワイズスコアの分布を調整し,人口統計学的パーティを目標とする。
第2のカラリブは、ラベルに依存したバイアス、例えば平等な機会を減らそうと予測されたラベルの条件である。
論文 参考訳(メタデータ) (2024-11-03T21:01:40Z) - A Best-of-Both Approach to Improve Match Predictions and Reciprocal Recommendations for Job Search [15.585641615174623]
本稿では、擬似マッチスコアを利用して、生産における相互推薦を改善するための、新規で実用的なソリューションを紹介し、実証する。
具体的には、実際のマッチングラベルと比較的不正確だが密なマッチング予測を組み合わせることで、より密で直接的な擬似マッチスコアを生成する。
我々の手法は、直接マッチング予測と2つの異なるモデルアプローチの両方の高レベルなアイデアを組み合わせることで、ベスト・オブ・ボス(BoB)アプローチと見なすことができる。
論文 参考訳(メタデータ) (2024-09-17T08:51:02Z) - Language Generation with Strictly Proper Scoring Rules [70.340673452404]
本稿では,非局所的なスコアリングルールを用いた言語モデリングが可能な,スコアリングルールを言語生成に適用するための戦略を提案する。
対数スコアの代替として、ブライアスコアと球面スコアの2つの古典的厳密なスコアルールを用いて言語生成モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-29T09:09:00Z) - Examining marginal properness in the external validation of survival models with squared and logarithmic losses [0.0]
生存分析のための共通二乗および対数スコアリングルールを調査した。
我々は,ISBS(Integrated Survival Brier Score)とRCLL(Right-Censored Log-Likelihood)が理論的に不適切であることを示す。
我々は、RCLLとISBSの両方を、自動手順を含むモデルの外部検証で推奨する。
論文 参考訳(メタデータ) (2022-12-10T10:34:35Z) - Optimizing Partial Area Under the Top-k Curve: Theory and Practice [151.5072746015253]
トップk曲線下部分領域(AUTKC)と呼ばれる新しい計量法を開発した。
AUTKCはより優れた識別能力を持ち、ベイズ最適スコア関数は条件付き確率に対して正しいトップKランクを与えることができる。
提案手法を最適化するために,実証的なサロゲートリスク最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-03T11:09:13Z) - Optimal Scoring Rule Design under Partial Knowledge [9.759870160862205]
本研究では,主成分がエージェントの信号分布の部分的知識を持つ場合の最適スコアリングルールについて検討する。
私たちの設定では、プリンシパルはエージェントの信号分布が属する一連の分布のみを知っています。
分布の集合が有限である場合に最適なスコアリングルールを計算するための効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-07-15T16:05:48Z) - Post-Contextual-Bandit Inference [57.88785630755165]
コンテキストバンディットアルゴリズムは、電子商取引、医療、政策立案における非適応的なA/Bテストを置き換える傾向にある。
研究参加者の成果を改善することもでき、良い方針や最良の政策を特定できる可能性を高めることもできる。
研究の終盤における新規介入の信頼性推論を支援するため, 平均治療効果, サブグループ効果, あるいは新政策の価値について, 有効な信頼区間を構築したい。
論文 参考訳(メタデータ) (2021-06-01T12:01:51Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。