論文の概要: ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences via Tournament Graph Reconstruction
- arxiv url: http://arxiv.org/abs/2505.17691v1
- Date: Fri, 23 May 2025 10:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.980151
- Title: ELSPR: Evaluator LLM Training Data Self-Purification on Non-Transitive Preferences via Tournament Graph Reconstruction
- Title(参考訳): ELSPR: Evaluator LLM Training Data Self-Purification on Non-transitive Preferences via Tournament Graph Reconstruction (特集:情報ネットワーク)
- Authors: Yan Yu, Yilun Liu, Minggui He, Shimin Tao, Weibin Meng, Xinhua Yang, Li Zhang, Hongxia Ma, Chang Su, Hao Yang, Fuliang Li,
- Abstract要約: 低品質のトレーニングデータは、評価器LLMによって生成される好みの推移性を低下させる可能性がある。
非透過性の定量化とグラフ構造エントロピーの導入により、嗜好の全体的明瞭度を測定する。
実験により、フィルタデータで微調整されたモデルでは、非透過性は13.78%減少し、構造エントロピーは0.0879減少し、人間の評価者とより密に一致していることが示された。
- 参考スコア(独自算出の注目度): 12.834553446564634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are widely used as evaluators for open-ended tasks, while previous research has emphasized biases in LLM evaluations, the issue of non-transitivity in pairwise comparisons remains unresolved: non-transitive preferences for pairwise comparisons, where evaluators prefer A over B, B over C, but C over A. Our results suggest that low-quality training data may reduce the transitivity of preferences generated by the Evaluator LLM. To address this, We propose a graph-theoretic framework to analyze and mitigate this problem by modeling pairwise preferences as tournament graphs. We quantify non-transitivity and introduce directed graph structural entropy to measure the overall clarity of preferences. Our analysis reveals significant non-transitivity in advanced Evaluator LLMs (with Qwen2.5-Max exhibiting 67.96%), as well as high entropy values (0.8095 for Qwen2.5-Max), reflecting low overall clarity of preferences. To address this issue, we designed a filtering strategy, ELSPR, to eliminate preference data that induces non-transitivity, retaining only consistent and transitive preference data for model fine-tuning. Experiments demonstrate that models fine-tuned with filtered data reduce non-transitivity by 13.78% (from 64.28% to 50.50%), decrease structural entropy by 0.0879 (from 0.8113 to 0.7234), and align more closely with human evaluators (human agreement rate improves by 0.6% and Spearman correlation increases by 0.01).
- Abstract(参考訳): 大規模言語モデル (LLM) はオープンエンドタスクの評価手段として広く用いられているが, 従来の研究ではLLM評価のバイアスを強調していたが, ペアワイズ比較における非推移性の問題はまだ未解決のままである。
そこで本稿では,トーナメントグラフとしてペアの選好をモデル化することにより,この問題を解析・緩和するためのグラフ理論フレームワークを提案する。
非透過性の定量化とグラフ構造エントロピーの導入により、嗜好の全体的明瞭度を測定する。
本分析では, 高いエントロピー値 (0.8095 for Qwen2.5-Max) と高いエントロピー値 (0.8095 for Qwen2.5-Max) を呈し, 嗜好の全体的明瞭度を反映している。
この問題に対処するため、我々は、モデル微調整のための一貫性のある推移的選好データのみを保持する、非推移性をもたらす選好データを排除するためのフィルタリング戦略であるESSPRを設計した。
実験により、フィルタデータで微調整されたモデルは、非遷移率を13.78%(64.28%から50.50%)減らし、構造エントロピーを0.0879(0.8113から0.7234)減らした。
関連論文リスト
- Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Gradient Extrapolation for Debiased Representation Learning [7.183424522250937]
GERNE(Gradient Extrapolation for Debiased Representation Learning)は、未知の属性トレーニングケースと未知の属性トレーニングケースの両方において、バイアス付き表現を学習するように設計されている。
GERNEは、ERM、reweighting、resamplingといったメソッドをデバイアスする一般的なフレームワークとして機能し、特別なケースとして示される。
提案手法は5つのビジョンと1つのNLPベンチマークで検証され、最先端のベースライン手法と比較して競争力があり、しばしば優れた性能を示す。
論文 参考訳(メタデータ) (2025-03-17T14:48:57Z) - EACO: Enhancing Alignment in Multimodal LLMs via Critical Observation [58.546205554954454]
臨界観測(EACO)によるMLLMのアライメント向上を提案する。
EACOは、経済的に5k画像のみを使用して、MLLMを自己生成の選好データで整列する。
EACOは幻覚全体の65.6%をHalusionBenchで減らし、MME-Cognitionで21.8%改善する。
論文 参考訳(メタデータ) (2024-12-06T09:59:47Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Step-DPO: Step-wise Preference Optimization for Long-chain Reasoning of LLMs [54.05511925104712]
本稿では,Step-DPOと呼ばれるシンプルで効果的でデータ効率のよい手法を提案する。
Step-DPOは、個々の推論ステップを、論理的に回答を評価するのではなく、優先最適化の単位として扱う。
以上の結果から,70B パラメータ以上のモデルでは,10K の選好データペアと500 Step-DPO トレーニングステップ以下では,MATH の精度が約3%向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-06-26T17:43:06Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。