Fugu-MT 論文翻訳(概要): Compare without Despair: Reliable Preference Evaluation with Generation Separability

論文の概要: Compare without Despair: Reliable Preference Evaluation with Generation Separability

arxiv url: http://arxiv.org/abs/2407.01878v1
Date: Tue, 2 Jul 2024 01:37:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 17:03:34.761248
Title: Compare without Despair: Reliable Preference Evaluation with Generation Separability
Title（参考訳）: 絶望を伴わない比較:世代分離性を考慮した信頼性の高い選好評価
Authors: Sayan Ghosh, Tejas Srinivasan, Swabha Swayamdipta,
Abstract要約: テストインスタンスがペアの選好評価にどの程度適しているかを推定する尺度であるセパビリティ(Separability)を導入する。候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。実験により、分離性が高いインスタンスは、人間と自動レーダの両方からより一貫した選好格付けが得られることが示された。
参考スコア（独自算出の注目度）: 20.50638483427141
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Human evaluation of generated language through pairwise preference judgments is pervasive. However, under common scenarios, such as when generations from a model pair are very similar, or when stochastic decoding results in large variations in generations, it results in inconsistent preference ratings. We address these challenges by introducing a meta-evaluation measure, separability, which estimates how suitable a test instance is for pairwise preference evaluation. For a candidate test instance, separability samples multiple generations from a pair of models, and measures how distinguishable the two sets of generations are. Our experiments show that instances with high separability values yield more consistent preference ratings from both human- and auto-raters. Further, the distribution of separability allows insights into which test benchmarks are more valuable for comparing models. Finally, we incorporate separability into ELO ratings, accounting for how suitable each test instance might be for reliably ranking LLMs. Overall, separability has implications for consistent, efficient and robust preference evaluation of LLMs with both human- and auto-raters.
Abstract（参考訳）: 一対の選好判断による生成言語の人間による評価は広範に行われている。しかし、モデルペアから世代が非常に近い場合や、確率的復号化が世代の大きなバリエーションをもたらす場合など、一般的なシナリオでは、一貫性のない選好格付けが生じる。テストインスタンスがペアの選好評価にどの程度適しているかを推定するメタ評価尺度であるセパビリティを導入することで、これらの課題に対処する。候補テストインスタンスでは、セパビリティは1組のモデルから複数の世代をサンプリングし、2つの世代がどの程度区別可能であるかを測定する。実験の結果,高い分離性値を持つインスタンスは,人間と自動レーダの両方からより一貫した選好格付けが得られることがわかった。さらに、分離可能性の分布は、モデルを比較する上でどのテストベンチマークがより価値があるかについての洞察を可能にする。最後に、各テストインスタンスがLLMを確実にランク付けするのにどの程度適しているかを考慮し、分離性をELO評価に組み込む。全体として、分離性は、人間とオートレーダの両方によるLCMの一貫性、効率的、堅牢な選好評価に影響を及ぼす。

関連論文リスト

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。 IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文参考訳（メタデータ） (2026-03-05T02:21:17Z)
K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。 K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文参考訳（メタデータ） (2026-02-10T05:07:46Z)
Distribution-Calibrated Inference time compute for Thinking LLM-as-a-Judge [5.855996386998925]
大きな言語モデル(LLM)をペアの選好の判断に使用すると、単一サンプルレベルではノイズが残る。本研究では,各項目ごとにn個の独立した思考型サンプルを生成する評価器の推論時間計算(ITC)について検討する。
論文参考訳（メタデータ） (2025-12-02T18:46:47Z)
BiasFreeBench: a Benchmark for Mitigating Bias in Large Language Model Responses [32.58830706120845]
大規模言語モデル(LLM)のバイアス緩和手法に関する既存の研究は、様々なベースラインとメトリクスを用いてバイアス低減性能を評価する。 BiasFreeBenchは8つの主流バイアス緩和手法を包括的に比較した経験的ベンチマークである。我々は、バイアス軽減研究のための統合テストベッドを確立することを目的として、我々のベンチマークを公開します。
論文参考訳（メタデータ） (2025-09-30T19:56:54Z)
Reference-Free Rating of LLM Responses via Latent Information [53.463883683503106]
本研究では,判断モデルに対して,自由テキスト応答にQuattスケールのスコアを割り当てるよう依頼する一般的な実践について検討する。次に、内部モデル信号からスカラー評価を導出する潜在裁判官を提案し、評価する。ペアとシングルレーティングのベンチマークの幅広いスイートの中で、潜在メソッドは標準のプロンプトにマッチするか、超えている。
論文参考訳（メタデータ） (2025-09-29T12:15:52Z)
Pairwise or Pointwise? Evaluating Feedback Protocols for Bias in LLM-Based Evaluation [57.380464382910375]
フィードバックプロトコルの選択が評価信頼性に大きく影響し,系統的バイアスを生じさせることを示す。特に、ペアワイズ評価プロトコルは、不注意な評価に対してより脆弱であることを示す。
論文参考訳（メタデータ） (2025-04-20T19:05:59Z)
Where is this coming from? Making groundedness count in the evaluation of Document VQA models [12.951716701565019]
一般的な評価指標は、モデルの出力のセマンティックおよびマルチモーダルな基礎性を考慮しない。本稿では,予測の基盤性を考慮した新しい評価手法を提案する。提案手法は,ユーザが好みに応じてスコアを設定できるようにパラメータ化されている。
論文参考訳（メタデータ） (2025-03-24T20:14:46Z)
How Many Ratings per Item are Necessary for Reliable Significance Testing? [7.777020199676859]
機械学習評価に対するほとんどのアプローチは、機械と人間の応答は、一元的権威を持つ「金の標準」応答を持つデータに対して測定できる程度に反復可能であると仮定している。既存または計画された)評価データセットが、あるモデルの性能を他のモデルと確実に比較するのに十分な応答を持っているかどうかを判断する手法を提案する。
論文参考訳（メタデータ） (2024-12-04T02:31:28Z)
Beyond Scalar Reward Model: Learning Generative Judge from Preference Data [26.219896368149236]
嗜好フィードバックから学ぶことは、大きな言語モデル(LLM)を人間の価値と整合させる一般的なプラクティスである。 Scalarモデルは解釈可能性に欠けており、データセットのバイアスの影響を受けやすいことが知られている。本稿では,LLMの生成能力を利用して,両方の制約を1ショットで処理する手法について検討する。
論文参考訳（メタデータ） (2024-10-01T07:38:58Z)
The Comparative Trap: Pairwise Comparisons Amplifies Biased Preferences of LLM Evaluators [31.520403357740317]
大規模言語モデル (LLM) は、自然言語生成タスクの評価器としてますます使われている。 LLMは、冗長性や権威的なトーンを好むなど、バイアスのある好みを示す。ペアワイズフレームワークにポイントワイズ推論を統合するPRePairを導入する。
論文参考訳（メタデータ） (2024-06-18T06:43:04Z)
Examining the robustness of LLM evaluation to the distributional assumptions of benchmarks [2.1899189033259305]
調査コミュニティは、しばしばモデルの性能を評価するために、ベンチマークの試験プロンプト全体にわたるモデルの平均パフォーマンスに依存します。これは、ベンチマーク内のテストプロンプトが実世界の関心の分布からランダムなサンプルを表すという仮定と一致している。その結果,(1)テストプロンプト間のモデル性能の相関は非ランダムであり,(2)テストプロンプト間の相関を考慮すれば,主要なベンチマーク上でモデルランキングを変更でき,(3)セマンティックな類似性や共通LLM障害点を含む説明的要因が得られた。
論文参考訳（メタデータ） (2024-04-25T18:35:54Z)
FairPair: A Robust Evaluation of Biases in Language Models through Paired Perturbations [33.24762796282484]
常用時に発生する差分処理を評価するための評価フレームワークであるFairPairについて述べる。従来の手法と異なり,本手法は,サンプリングのばらつきを計測することによって,生成プロセス自体から生じる固有変数に影響を及ぼす。
論文参考訳（メタデータ） (2024-04-09T21:09:22Z)
Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価する上で有望な能力を示している。 LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。 Pairwise-preference Search (PairS)は、LLMを用いてペア比較を行い、候補テキストを効率よくランク付けする不確実性誘導探索手法である。
論文参考訳（メタデータ） (2024-03-25T17:11:28Z)
A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文参考訳（メタデータ） (2024-01-26T14:21:45Z)
Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。我々はLSMに答えを自己評価するように指示する。自己評価に基づくスコアリング手法をベンチマークする。
論文参考訳（メタデータ） (2023-12-14T19:09:22Z)
GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。 GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文参考訳（メタデータ） (2023-04-19T14:58:27Z)
A Statistical Analysis of Summarization Evaluation Metrics using Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文参考訳（メタデータ） (2021-03-31T18:28:14Z)
Two-Sample Testing on Ranked Preference Data and the Role of Modeling Assumptions [57.77347280992548]
本稿では,ペアワイズ比較データとランキングデータのための2サンプル試験を設計する。私たちのテストでは、基本的に分布に関する仮定は必要ありません。実世界のペアワイズ比較データに2サンプルテストを適用することで、人によって提供される評価とランキングは、実際は異なる分散である、と結論付ける。
論文参考訳（メタデータ） (2020-06-21T20:51:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。