論文の概要: AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation
- arxiv url: http://arxiv.org/abs/2504.07532v1
- Date: Thu, 10 Apr 2025 07:58:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-11 12:23:42.880310
- Title: AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation
- Title(参考訳): AI-Slop to AI-Polish? 編集ベースのリワードとテスト時間計算による言語モデルの調整
- Authors: Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu,
- Abstract要約: 我々は、AI生成テキストの書字品質の評価と改善について研究する。
まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。
次に、書字品質評価のために、様々なサイズの書字品質リワードモデル(WQRM)を訓練する。
- 参考スコア(独自算出の注目度): 39.00434175773803
- License:
- Abstract: AI-generated text is proliferating across domains, from creative writing and journalism to marketing content and scientific articles. Models can follow user-provided instructions to generate coherent and grammatically correct outputs but in this work, we study a more fundamental question: how do we evaluate and improve the writing quality of AI-generated text? Writing quality assessment has received less attention from the community, in part because it is fundamentally subjective and requires expertise. We first introduce the Writing Quality Benchmark (WQ) by consolidating five writing-preference datasets into 4,729 writing quality judgments. Our experiments show that competitive baselines, including state-of-the-art LLMs that excel at reasoning tasks, barely outperform random baselines on WQ. We then train specialized Writing Quality Reward Models (WQRM) of various sizes for writing quality assessment that demonstrate strong generalization on four out-of-distribution test sets and 74% accuracy on the WQ benchmark. To further show WQRM's practical benefits during inference, we leverage additional test-time compute to generate and rank multiple candidate revisions, allowing us to select higher-quality outputs from an initial draft. Human evaluation with 9 experienced writers confirm that WQRM-based selection produces writing samples preferred by experts 66% overall, and 72.2% when the reward gap is larger than 1 point. We release our datasets and models to encourage community engagement with writing quality assessment and development of AI writing systems better aligned with human preferences.
- Abstract(参考訳): AIが生成するテキストは、クリエイティブな執筆やジャーナリズム、マーケティングコンテンツ、科学記事など、各分野に広がりつつある。
モデルは、ユーザが提供する指示に従って、一貫性と文法的に正しい出力を生成することができるが、本研究では、AI生成したテキストの書き込み品質をどのように評価し改善するかという、より根本的な問題を研究する。
品質評価を書くことは、基本的に主観的で専門知識を必要とすることもあって、コミュニティから注目されるものが少なくなっている。
まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。
実験の結果、WQのランダムなベースラインよりも、推論タスクに優れる最先端のLCMを含む、競争力のあるベースラインがほとんどないことがわかった。
次に,4つのアウト・オブ・ディストリビューション・テストセットの強い一般化と,WQベンチマークの74%の精度を示す書込み品質評価のために,様々なサイズの書込み品質リワードモデル(WQRM)を訓練する。
推論におけるWQRMの実用的メリットをさらに示すため、複数の候補修正を生成・ランク付けするために追加のテスト時間計算を活用し、初期ドラフトから高品質な出力を選択することができる。
9人の経験豊富な作家による人間による評価では、WQRMベースの選択は、専門家が好む筆記用サンプルを66%、報酬ギャップが1点以上大きい場合は72.2%を生み出すことが確認されている。
我々は、品質評価を書くことへのコミュニティの関与を促進するためにデータセットとモデルをリリースし、人間の好みに合うようにAI書記システムを開発する。
関連論文リスト
- NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism [28.443004656952343]
我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。
構築したベンチマークデータセットは、筆記能力の4つの面と安全性の6つの面に焦点を当てている。
本稿では,GPT-4をベースとした自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-02-29T21:05:14Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - LLMs as Narcissistic Evaluators: When Ego Inflates Evaluation Scores [23.568883428947494]
本研究は,LMに基づく評価指標が,要約タスクの文脈において,それぞれの基盤となるLMに対して有利なバイアスを示すかどうかを考察する。
以上の結果から, 金のサマリーを活用せずに, 基準のない手法で評価指標を用いた場合, 特に有意なバイアスがみられた。
これらの結果は、生成的評価モデルによって提供される評価は、本質的なテキスト品質を超える要因に影響される可能性があることを裏付けている。
論文 参考訳(メタデータ) (2023-11-16T10:43:26Z) - Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。
言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。
QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文 参考訳(メタデータ) (2023-10-19T12:13:58Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z) - Exploring the Use of Large Language Models for Reference-Free Text
Quality Evaluation: An Empirical Study [63.27346930921658]
ChatGPTは、参照なしで様々な視点からテキスト品質を効果的に評価することができる。
ChatGPTを用いてテキスト品質を測定するExplicit Scoreは、3つの手法の中で最も効果的で信頼性の高い方法である。
論文 参考訳(メタデータ) (2023-04-03T05:29:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。