論文の概要: Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures
- arxiv url: http://arxiv.org/abs/2510.14616v1
- Date: Thu, 16 Oct 2025 12:23:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.846358
- Title: Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures
- Title(参考訳): 正確性を超えて - 文化全体にわたる主観的な文章の選好を評価する
- Authors: Shuangshuang Ying, Yunwen Li, Xingwei Qu, Xin Li, Sheng Jin, Minghao Liu, Zhoufutu Wen, Xeron Du, Tianyu Zheng, Yichi Zhang, Letian Ni, Yuyang Cheng, Qiguang Chen, Jingzhe Ding, Shengda Long, Wangchunshu Zhou, Jiazhan Feng, Wanjun Zhong, Libo Qin, Ge Zhang, Wenhao Huang, Wanxiang Che, Chenghua Lin,
- Abstract要約: 現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、顕著な性能劣化を示す。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みペア(1,200の英語、600の中国語)のデータセットであるWriteingPreferenceBenchを紹介した。
- 参考スコア(独自算出の注目度): 87.75098311090642
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current preference learning methods achieve high accuracy on standard benchmarks but exhibit significant performance degradation when objective quality signals are removed. We introduce WritingPreferenceBench, a dataset of 1,800 human-annotated preference pairs (1,200 English, 600 Chinese) across 8 creative writing genres, where responses are matched for objective correctness, factual accuracy, and length. On this benchmark, sequence-based reward models--the standard architecture for RLHF--achieve only 52.7% mean accuracy, while zero-shot language model judges perform at 53.9%. In contrast, generative reward models that produce explicit reasoning chains achieve 81.8% accuracy. We observe high within-model variance across genres: individual models range from 18.2% to 81.8% accuracy across different writing categories, with standard deviations averaging 10.1%. This variance persists regardless of model scale, with 27B parameter models showing no consistent improvement over 8B variants. Our results suggest that current RLHF methods primarily learn to detect objective errors rather than capture subjective quality preferences (e.g., creativity, stylistic flair, and emotional resonance), and that successful preference modeling may require intermediate reasoning representations rather than direct classification.
- Abstract(参考訳): 現在の選好学習法は、標準ベンチマークで高い精度を達成するが、客観的な品質信号を取り除いた場合、性能が著しく低下する。
我々は、8つのクリエイティブな著作ジャンルにまたがる1,800の人手による好みのペア(1200英語、600中国語)のデータセットであるWriteingPreferenceBenchを紹介し、その応答は客観的な正当性、事実的正確性、長さにマッチする。
このベンチマークでは、シーケンスベースの報酬モデル(RLHFの標準アーキテクチャ)は52.7%しか正確ではなく、ゼロショット言語モデルの審査員は53.9%である。
対照的に、明確な推論連鎖を生成する生成的報酬モデルは81.8%の精度を達成している。
個々のモデルは、異なる筆記カテゴリーで18.2%から81.8%の精度で、標準偏差は平均10.1%である。
この分散はモデルスケールに関係なく持続し、27Bパラメータモデルは8B変種に対して一貫した改善を示さない。
以上の結果から,従来のRLHF法は主観的品質選好(例えば,創造性,スタイル的フレア,感情的共鳴)を捉えるよりも,客観的な誤りを検出することを主に学んでいることが示唆された。
関連論文リスト
- Flattery, Fluff, and Fog: Diagnosing and Mitigating Idiosyncratic Biases in Preference Models [12.445845925904466]
言語モデルは、アライメントと評価において人間の嗜好判断のためのプロキシとして機能する。
それらは体系的な誤校正を示し、実質的な品質よりも表面的なパターンを優先する。
このバイアスは長さ、構造、スタイルといった機能への過度な依存として現れ、報酬のハッキングや信頼できない評価といった問題につながります。
論文 参考訳(メタデータ) (2025-06-05T17:59:32Z) - WorldPM: Scaling Human Preference Modeling [130.23230492612214]
我々は、このスケーリングの可能性を強調するために、World Preference Modeling$ (WorldPM)を提案する。
多様なユーザコミュニティをカバーする公開フォーラムから選好データを収集する。
1.5Bから72Bパラメータの範囲で15Mスケールのデータを用いて広範囲なトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-15T17:38:37Z) - Beyond One-Size-Fits-All: Tailored Benchmarks for Efficient Evaluation [19.673388630963807]
本論文では,各対象モデルに合わせてカスタマイズした評価を行うTaloredBenchを提案する。
Global-coresetはまず、ターゲットモデル毎に最も一貫性のあるソースモデルを特定するプローブとして構築される。
拡張性のあるK-Medoidsクラスタリングアルゴリズムが提案され、Global-coresetを各ターゲットモデルに適したNative-coresetに拡張する。
論文 参考訳(メタデータ) (2025-02-19T09:31:50Z) - Stacking-Enhanced Bagging Ensemble Learning for Breast Cancer Classification with CNN [0.24578723416255752]
本稿では,乳がん分類のためのBaggingおよびスタックングアンサンブル学習手法に基づくCNN分類ネットワークを提案する。
このモデルは入力画像の高速かつ正確な分類を行うことができる。
二項分類(乳がんの有無)では、精度は98.84%に達し、5級分類では98.34%に達した。
論文 参考訳(メタデータ) (2024-07-15T09:44:43Z) - Common 7B Language Models Already Possess Strong Math Capabilities [61.61442513067561]
本稿では,LLaMA-2 7Bモデルと事前学習を併用したモデルが,すでに強力な数学的能力を示していることを示す。
拡張スケーリングの可能性は、公開されている数学の質問の不足によって制限されている。
論文 参考訳(メタデータ) (2024-03-07T18:00:40Z) - (Certified!!) Adversarial Robustness for Free! [116.6052628829344]
逆方向の摂動が0.5の2ノルム以内であることに制約された場合,ImageNetでは71%の精度が証明された。
これらの結果は,モデルパラメータの微調整や再学習を必要とせず,事前学習した拡散モデルと画像分類器のみを用いて得られる。
論文 参考訳(メタデータ) (2022-06-21T17:27:27Z) - Self-Normalized Importance Sampling for Neural Language Modeling [97.96857871187052]
本研究では, 自己正規化重要度サンプリングを提案し, これまでの研究と比較すると, 本研究で考慮された基準は自己正規化されており, さらに修正を行う必要はない。
提案する自己正規化重要度サンプリングは,研究指向と生産指向の両方の自動音声認識タスクにおいて競合することを示す。
論文 参考訳(メタデータ) (2021-11-11T16:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。