論文の概要: AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation
- arxiv url: http://arxiv.org/abs/2504.07532v2
- Date: Sun, 20 Apr 2025 02:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 12:29:20.513765
- Title: AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation
- Title(参考訳): AI-Slop to AI-Polish? 編集ベースのリワードとテスト時間計算による言語モデルの調整
- Authors: Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu,
- Abstract要約: 品質評価を書くことは、基本的に主観的で専門知識を必要とすることもあって、コミュニティから注目されるものが少なくなっている。
まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。
実験の結果、WQのランダムなベースラインよりも、推論タスクに優れる最先端のLLMを含む、競争力のあるベースラインの大半が、WQのランダムなベースラインよりも優れていることがわかった。
そして、4つのアウト・オブ・ディストリビューション・テストセットと74%の精度で強力な一般化を示す書字品質評価のための様々なサイズの書字品質リワード・モデル(WQRM)を訓練する。
- 参考スコア(独自算出の注目度): 39.00434175773803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated text is proliferating across domains, from creative writing and journalism to marketing content and scientific articles. Models can follow user-provided instructions to generate coherent and grammatically correct outputs but in this work, we study a more fundamental question: how do we evaluate and improve the writing quality of AI-generated text? Writing quality assessment has received less attention from the community, in part because it is fundamentally subjective and requires expertise. We first introduce the Writing Quality Benchmark (WQ) by consolidating five writing-preference datasets into 4,729 writing quality judgments. Our experiments show that most of the competitive baselines, including state-of-the-art LLMs that excel at reasoning tasks, barely outperform random baselines on WQ. We then train specialized Writing Quality Reward Models (WQRM) of various sizes for writing quality assessment that demonstrate strong generalization on four out-of-distribution test sets and 74% accuracy on the WQ benchmark. To further show WQRM's practical benefits during inference, we leverage additional test-time compute to generate and rank multiple candidate revisions, allowing us to select higher-quality outputs from an initial draft. Human evaluation with 9 experienced writers confirm that WQRM-based selection produces writing samples preferred by experts 66% overall, and 72.2% when the reward gap is larger than 1 point. We release our datasets and models to encourage community engagement with writing quality assessment and development of AI writing systems better aligned with human preferences.
- Abstract(参考訳): AIが生成するテキストは、クリエイティブな執筆やジャーナリズム、マーケティングコンテンツ、科学記事など、各分野に広がりつつある。
モデルは、ユーザが提供する指示に従って、一貫性と文法的に正しい出力を生成することができるが、本研究では、AI生成したテキストの書き込み品質をどのように評価し改善するかという、より根本的な問題を研究する。
品質評価を書くことは、基本的に主観的で専門知識を必要とすることもあって、コミュニティから注目されるものが少なくなっている。
まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。
実験の結果、WQのランダムなベースラインよりも、推論タスクに優れる最先端のLLMを含む、競争力のあるベースラインの大半が、WQのランダムなベースラインよりも優れていることがわかった。
次に,4つのアウト・オブ・ディストリビューション・テストセットの強い一般化と,WQベンチマークの74%の精度を示す書込み品質評価のために,様々なサイズの書込み品質リワードモデル(WQRM)を訓練する。
推論におけるWQRMの実用的メリットをさらに示すため、複数の候補修正を生成・ランク付けするために追加のテスト時間計算を活用し、初期ドラフトから高品質な出力を選択することができる。
9人の経験豊富な作家による人間による評価では、WQRMベースの選択は、専門家が好む筆記用サンプルを66%、報酬ギャップが1点以上大きい場合は72.2%を生み出すことが確認されている。
我々は、品質評価を書くことへのコミュニティの関与を促進するためにデータセットとモデルをリリースし、人間の好みに合うようにAI書記システムを開発する。
関連論文リスト
- Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach [32.654673913638426]
本稿では,創造性を製品として評価するTorance Test of Creative Writing (TTCW)に基づく自動評価手法を提案する。
提案手法は、高品質な参照テキストに対して生成されたクリエイティブテキストをスコアリングする参照ベースのLikertスタイルのアプローチを用いる。
論文 参考訳(メタデータ) (2025-04-22T10:52:23Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - CritiQ: Mining Data Quality Criteria from Human Preferences [70.35346554179036]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。
CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。
コード,数学,論理領域において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-26T16:33:41Z) - NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism [28.443004656952343]
我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。
構築したベンチマークデータセットは、筆記能力の4つの面と安全性の6つの面に焦点を当てている。
本稿では,GPT-4をベースとした自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-02-29T21:05:14Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。
言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。
QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文 参考訳(メタデータ) (2023-10-19T12:13:58Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。