論文の概要: Metric-Fair Prompting: Treating Similar Samples Similarly
- arxiv url: http://arxiv.org/abs/2512.07608v1
- Date: Mon, 08 Dec 2025 14:56:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.933871
- Title: Metric-Fair Prompting: Treating Similar Samples Similarly
- Title(参考訳): Metric-Fair Prompting:類似のサンプルを同様に扱う
- Authors: Jing Wang, Jie Shen, Xing Niu, Tong Zhang, Jeremy Weiss,
- Abstract要約: EmphMetric-Fair Promptingは,大規模言語モデル (LLM) を誘導し,計量フェアネス制約の下で意思決定を行うフェアネス対応プロンプトフレームワークである。
MedQA(US)ベンチマークで評価すると、Metric-Fair Promptingは標準のシングルイットプロンプトよりもパフォーマンスを向上させることが示されている。
- 参考スコア(独自算出の注目度): 13.266538356418081
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce \emph{Metric-Fair Prompting}, a fairness-aware prompting framework that guides large language models (LLMs) to make decisions under metric-fairness constraints. In the application of multiple-choice medical question answering, each {(question, option)} pair is treated as a binary instance with label $+1$ (correct) or $-1$ (incorrect). To promote {individual fairness}~--~treating similar instances similarly~--~we compute question similarity using NLP embeddings and solve items in \emph{joint pairs of similar questions} rather than in isolation. The prompt enforces a global decision protocol: extract decisive clinical features, map each \((\text{question}, \text{option})\) to a score $f(x)$ that acts as confidence, and impose a Lipschitz-style constraint so that similar inputs receive similar scores and, hence, consistent outputs. Evaluated on the {MedQA (US)} benchmark, Metric-Fair Prompting is shown to improve performance over standard single-item prompting, demonstrating that fairness-guided, confidence-oriented reasoning can enhance LLM accuracy on high-stakes clinical multiple-choice questions.
- Abstract(参考訳): 我々は,大言語モデル (LLM) を誘導し,計量フェアネス制約の下で意思決定を行うフェアネス対応プロンプトフレームワークである \emph{Metric-Fair Prompting} を紹介した。
多重選択型医療質問応答の応用では、各{(question, option)} ペアは、$+1$(正しい)または$-1$(正しくない)というラベルを持つバイナリインスタンスとして扱われる。
Individual fairness}~---treating similar instancely~----- we compute question similarity using NLP embeddings and solve items in \emph{joint pairs of similar question}。
プロンプトは、決定的な臨床的特徴を抽出し、各 \((\text{question}, \text{option})\) を信頼として作用するスコア $f(x)$ にマッピングし、類似の入力が同様のスコアを受け取り、従って一貫した出力を得るようにリプシッツスタイルの制約を課す。
MedQA (US) のベンチマークで評価すると、Metric-Fair Prompting は標準の単一項目のプロンプトよりも性能を向上させることが示され、公平で信頼性に配慮した推論が高精細な複数項目の質問に対して LLM の精度を向上させることが示されている。
関連論文リスト
- Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。
次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。
ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文 参考訳(メタデータ) (2025-09-29T12:15:52Z) - Mind the Gap: A Closer Look at Tokenization for Multiple-Choice Question Answering with LLMs [16.357595595062946]
植民地の後に空間をトークン化する方法には合意がないが、しばしば自明な選択として見過ごされる。
驚いたことに、私たちは1つの特定の戦略 -- 回答のレターとともにスペースをトークン化する -- を推奨できます。
本研究は、注意深い評価設計の重要性を強調し、標準化された透明な評価プロトコルの必要性を強調した。
論文 参考訳(メタデータ) (2025-09-18T14:47:58Z) - SCOPE: Stochastic and Counterbiased Option Placement for Evaluating Large Language Models [0.27309692684728604]
大規模言語モデル(LLM)は、選択肢の位置やラベルに固有のバイアスを生かして、複数の選択タスクの膨らませたスコアを達成できる。
本研究では,データセットに依存しない方法で選択バイアスを計測・緩和するSCOPEを提案する。
論文 参考訳(メタデータ) (2025-07-24T08:28:17Z) - Powerful batch conformal prediction for classification [0.9374652839580183]
ラベル付けされていない例のラベルに推論するために、$n$ラベル付き例の校正サンプルが観察される。
共形$p$-値の組み合わせで有効な推論を行うための一般的なレシピを提供する。
また、バッチスコアを集約し、さらに強力な方法も導入しています。
論文 参考訳(メタデータ) (2024-11-04T16:32:13Z) - Prompt Stability Scoring for Text Annotation with Large Language Models [0.0]
研究者たちは、テキストアノテーションに言語モデル(LM)をますます利用している。
これらのアプローチは、一連の命令に従って与えられた出力を返すようモデルに指示するプロンプトにのみ依存する。
LM出力の診断は、にもかかわらず、プロンプト設計の小さな変更に対して脆弱である。
論文 参考訳(メタデータ) (2024-07-02T08:11:18Z) - Mitigating LLM Hallucinations via Conformal Abstention [70.83870602967625]
我々は,大言語モデルが一般ドメインでの応答をいつ無視すべきかを決定するための,原則化された手順を開発する。
我々は、幻覚率(エラー率)の厳密な理論的保証の恩恵を受けるため、共形予測手法を活用して、禁忌手順を開発する。
実験によって得られた共形禁忌法は, 種々の閉書, オープンドメイン生成質問応答データセットに, 幻覚率を確実に拘束する。
論文 参考訳(メタデータ) (2024-04-04T11:32:03Z) - Token-Level Adversarial Prompt Detection Based on Perplexity Measures
and Contextual Information [67.78183175605761]
大規模言語モデルは、敵の迅速な攻撃に影響を受けやすい。
この脆弱性は、LLMの堅牢性と信頼性に関する重要な懸念を浮き彫りにしている。
トークンレベルで敵のプロンプトを検出するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-20T03:17:21Z) - Conformal Language Modeling [61.94417935386489]
生成言語モデル(LM)の共形予測のための新しい手法を提案する。
標準共形予測は厳密で統計的に保証された予測セットを生成する。
我々は,オープンドメイン質問応答,テキスト要約,ラジオロジーレポート生成において,複数のタスクに対するアプローチの約束を実証する。
論文 参考訳(メタデータ) (2023-06-16T21:55:08Z) - PAC Mode Estimation using PPR Martingale Confidence Sequences [5.623190096715942]
離散分布 $mathcalP$ のモードを十分に高い確率で正確に同定する問題を考える。
モード推定の一般化を提案し、$mathcalP$は$K geq 2$値を取ることができる。
結果,PPR-MEと表される停止規則は,対数係数までのサンプル複雑性において最適である。
論文 参考訳(メタデータ) (2021-09-10T18:11:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。