論文の概要: What Is Missing: Interpretable Ratings for Large Language Model Outputs
- arxiv url: http://arxiv.org/abs/2603.04429v1
- Date: Tue, 17 Feb 2026 14:04:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.208081
- Title: What Is Missing: Interpretable Ratings for Large Language Model Outputs
- Title(参考訳): 欠けていること:大規模言語モデルのアウトプットに対する解釈可能なレーティング
- Authors: Nicholas Stranges, Yimin Yang,
- Abstract要約: 自然言語フィードバックからランキングを作成するために,What Is Missing (WIM) レーティングシステムを導入する。
WIMは既存のトレーニングパイプラインに統合され、他の評価手法と組み合わせることができる。
我々は、離散的な数値評価と比較して、WIMがより少ない関係とより大きな評価デルタを得られることを実証的に観察した。
- 参考スコア(独自算出の注目度): 4.402604078675521
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current Large Language Model (LLM) preference learning methods such as Proximal Policy Optimization and Direct Preference Optimization learn from direct rankings or numerical ratings of model outputs, these rankings are subjective, and a single numerical rating chosen directly by a judge is a poor proxy for the quality of natural language, we introduce the What Is Missing (WIM) rating system to produce rankings from natural-language feedback, WIM integrates into existing training pipelines, can be combined with other rating techniques, and can be used as input to any preference learning method without changing the learning algorithm, to compute a WIM rating, a human or LLM judge writes feedback describing what the model output is missing, we embed the output and the feedback with a sentence embedding model and compute the cosine similarity between the resulting vectors, we empirically observe that, compared to discrete numerical ratings, WIM yields fewer ties and larger rating deltas, which improves the availability of a learning signal in pairwise preference data, we use interpretable in the following limited sense: for each scalar rating, we can inspect the judge's missing-information text that produced it, enabling qualitative debugging of the preference labels.
- Abstract(参考訳): 現在の大規模言語モデル(LLM)の選好学習手法である、近似ポリシー最適化や直接選好最適化は、直接ランク付けやモデル出力の数値評価から学習し、これらのランク付けは主観的であり、裁判官が直接選択した単一の数値評価は、自然言語の質の指標として不十分なものである。我々は、自然言語フィードバックからランク付けを生成できるWhat Is Missing(WIM)レーティングシステムを導入し、WIMを既存のトレーニングパイプラインに統合し、学習アルゴリズムを変更せずに任意の選好学習方法への入力として使用することができる。
関連論文リスト
- Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
我々はHyPERを紹介した。HyPERは、人間または言語モデル(LM)にアノテーションを付与するハイブリッド推論ルータである。
その結果,HyPERを用いた人工選好と直接選好の混合は,RewardBenchでは7-13%しか使用せず,RM性能が向上していることがわかった。
また、HyPERの機能を分析した結果、安全上の懸念や複雑さが人間のフィードバックから最も恩恵を受けていることがわかりました。
論文 参考訳(メタデータ) (2024-10-24T20:04:15Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。
モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文 参考訳(メタデータ) (2023-07-20T14:56:35Z) - Training Language Models with Language Feedback at Scale [50.70091340506957]
我々は、より情報的な言語フィードバックを利用する新しいアプローチであるLanguage Feedback (ILF)から学習を導入する。
ILFは3つのステップから成り、まず言語モデルを入力に条件付けし、最初のLM出力を出力し、改善を生成する。
理論的には、ILFは人間からのフィードバックによる強化学習と同様、ベイズ推論とみなすことができる。
論文 参考訳(メタデータ) (2023-03-28T17:04:15Z) - Evaluation of HTR models without Ground Truth Material [2.4792948967354236]
手書き文字認識モデルの開発における評価は容易である。
しかし、開発からアプリケーションに切り替えると、評価プロセスはトリッキーになります。
我々は,レキシコンに基づく評価が,レキシコンに基づく手法と競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T01:26:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。