論文の概要: AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation
- arxiv url: http://arxiv.org/abs/2504.07532v2
- Date: Sun, 20 Apr 2025 02:42:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 12:29:20.513765
- Title: AI-Slop to AI-Polish? Aligning Language Models through Edit-Based Writing Rewards and Test-time Computation
- Title(参考訳): AI-Slop to AI-Polish? 編集ベースのリワードとテスト時間計算による言語モデルの調整
- Authors: Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu,
- Abstract要約: 品質評価を書くことは、基本的に主観的で専門知識を必要とすることもあって、コミュニティから注目されるものが少なくなっている。
まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。
実験の結果、WQのランダムなベースラインよりも、推論タスクに優れる最先端のLLMを含む、競争力のあるベースラインの大半が、WQのランダムなベースラインよりも優れていることがわかった。
そして、4つのアウト・オブ・ディストリビューション・テストセットと74%の精度で強力な一般化を示す書字品質評価のための様々なサイズの書字品質リワード・モデル(WQRM)を訓練する。
- 参考スコア(独自算出の注目度): 39.00434175773803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-generated text is proliferating across domains, from creative writing and journalism to marketing content and scientific articles. Models can follow user-provided instructions to generate coherent and grammatically correct outputs but in this work, we study a more fundamental question: how do we evaluate and improve the writing quality of AI-generated text? Writing quality assessment has received less attention from the community, in part because it is fundamentally subjective and requires expertise. We first introduce the Writing Quality Benchmark (WQ) by consolidating five writing-preference datasets into 4,729 writing quality judgments. Our experiments show that most of the competitive baselines, including state-of-the-art LLMs that excel at reasoning tasks, barely outperform random baselines on WQ. We then train specialized Writing Quality Reward Models (WQRM) of various sizes for writing quality assessment that demonstrate strong generalization on four out-of-distribution test sets and 74% accuracy on the WQ benchmark. To further show WQRM's practical benefits during inference, we leverage additional test-time compute to generate and rank multiple candidate revisions, allowing us to select higher-quality outputs from an initial draft. Human evaluation with 9 experienced writers confirm that WQRM-based selection produces writing samples preferred by experts 66% overall, and 72.2% when the reward gap is larger than 1 point. We release our datasets and models to encourage community engagement with writing quality assessment and development of AI writing systems better aligned with human preferences.
- Abstract(参考訳): AIが生成するテキストは、クリエイティブな執筆やジャーナリズム、マーケティングコンテンツ、科学記事など、各分野に広がりつつある。
モデルは、ユーザが提供する指示に従って、一貫性と文法的に正しい出力を生成することができるが、本研究では、AI生成したテキストの書き込み品質をどのように評価し改善するかという、より根本的な問題を研究する。
品質評価を書くことは、基本的に主観的で専門知識を必要とすることもあって、コミュニティから注目されるものが少なくなっている。
まず、5つの書評データセットを4,729の書評判断に集約することで、書評品質ベンチマーク(WQ)を導入する。
実験の結果、WQのランダムなベースラインよりも、推論タスクに優れる最先端のLLMを含む、競争力のあるベースラインの大半が、WQのランダムなベースラインよりも優れていることがわかった。
次に,4つのアウト・オブ・ディストリビューション・テストセットの強い一般化と,WQベンチマークの74%の精度を示す書込み品質評価のために,様々なサイズの書込み品質リワードモデル(WQRM)を訓練する。
推論におけるWQRMの実用的メリットをさらに示すため、複数の候補修正を生成・ランク付けするために追加のテスト時間計算を活用し、初期ドラフトから高品質な出力を選択することができる。
9人の経験豊富な作家による人間による評価では、WQRMベースの選択は、専門家が好む筆記用サンプルを66%、報酬ギャップが1点以上大きい場合は72.2%を生み出すことが確認されている。
我々は、品質評価を書くことへのコミュニティの関与を促進するためにデータセットとモデルをリリースし、人間の好みに合うようにAI書記システムを開発する。
関連論文リスト
- Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark [9.922581736690159]
カリフォルニア大学アーバイン校(UC Irvine)の実際の手書き電卓におけるAIのグルーピングに関する大規模な実証的研究について述べる。
OCR条件付き大規模言語モデルを用いて, 何千もの応答型クイズ入力に対して, スコアと形式的フィードバックを生成する。
本研究は,1つの基礎的ラベルを持たない環境下で,公的な指導助成学級,学生調査,独立人レビューに対する評価を行った。
論文 参考訳(メタデータ) (2026-03-01T03:32:51Z) - Preference Optimization for Review Question Generation Improves Writing Quality [29.997337923485933]
トレーニング可能なマルチヘッドトランスを用いた冷凍自己回帰LDMから構築した新たな報酬モデルを開発した。
我々は、人間の努力、証拠、根拠の基準に沿った質問世代モデルを訓練する。
Qwen3-32Bベースモデルと比較して、IntelliAskは様々なベンチマークで測定可能なゲインを示している。
論文 参考訳(メタデータ) (2026-01-23T18:58:22Z) - MTQ-Eval: Multilingual Text Quality Evaluation for Language Models [4.239775815863115]
MTQ-Evalは多言語テキスト品質評価のための新しいフレームワークである。
高品質テキストと低品質テキストの両方の例から学び、内部表現を調整する。
115言語にわたる包括的評価は,提案モデルの性能向上を示す。
論文 参考訳(メタデータ) (2025-11-12T14:42:23Z) - RLMR: Reinforcement Learning with Mixed Rewards for Creative Writing [15.11786299709699]
主観的書字品質と客観的制約のバランスをとるために,混合報酬を用いた強化学習を提案する。
8Bから72Bパラメータの多種多様なモデルファミリーを対象とした自動的および手動評価を行った。
結果より,本手法は命令追従(IFEvalの83.36%から86.65%)と書字品質(WriteEvalのマニュアル専門家による相互評価における72.75%の勝利率)の両面で一貫した改善を実現していることが示された。
論文 参考訳(メタデータ) (2025-08-26T03:40:06Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - MAGIC: Multi-Agent Argumentation and Grammar Integrated Critiquer [4.262223700066747]
マルチエージェント論と文法統合批評(MAGIC)
フレームワークは、複数の特殊エージェントを使用して、異なる書き込みの側面を評価し、総合的なスコアを予測し、詳細でルーリックなフィードバックを生成する。
論文 参考訳(メタデータ) (2025-06-16T02:02:46Z) - Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach [32.654673913638426]
本稿では,創造性を製品として評価するTorance Test of Creative Writing (TTCW)に基づく自動評価手法を提案する。
提案手法は、高品質な参照テキストに対して生成されたクリエイティブテキストをスコアリングする参照ベースのLikertスタイルのアプローチを用いる。
論文 参考訳(メタデータ) (2025-04-22T10:52:23Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - CritiQ: Mining Data Quality Criteria from Human Preferences [70.35346554179036]
人間の嗜好からデータ品質の基準を自動的にマイニングする新しいデータ選択手法であるCritiQを紹介する。
CritiQ Flowはマネージャエージェントを使用して品質基準を進化させ、ワーカーエージェントはペアで判断する。
コード,数学,論理領域において,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2025-02-26T16:33:41Z) - NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism [28.443004656952343]
我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。
構築したベンチマークデータセットは、筆記能力の4つの面と安全性の6つの面に焦点を当てている。
本稿では,GPT-4をベースとした自動評価プロトコルを提案する。
論文 参考訳(メタデータ) (2024-02-29T21:05:14Z) - QuRating: Selecting High-Quality Data for Training Language Models [64.83332850645074]
データ品質に関する人間の直感をキャプチャできる事前学習データを選択するQuRatingを導入する。
本稿では,書体,専門知識,事実とトリビア,教育的価値の4つの特性について検討する。
ペアの判断からスカラー評価を学習するためにQurモデルをトレーニングし、それを4つの基準ごとに品質評価付き260Bのトレーニングコーパスにアノテートするために使用します。
論文 参考訳(メタデータ) (2024-02-15T06:36:07Z) - CritiqueLLM: Towards an Informative Critique Generation Model for Evaluation of Large Language Model Generation [87.44350003888646]
Eval-Instructは、疑似参照でポイントワイズした批評を取得し、マルチパスプロンプトを通じてこれらの批評を修正できる。
CritiqueLLMは、ChatGPTとすべてのオープンソースベースラインを上回るように実証的に示されています。
論文 参考訳(メタデータ) (2023-11-30T16:52:42Z) - Quality-Diversity through AI Feedback [10.423093353553217]
品質多様性(QD)探索アルゴリズムは、候補者の人口を継続的に改善し多様化することを目的としている。
言語モデル(LM)の最近の発展により、AIフィードバックによる探索のガイドが可能になった。
QDAIFは、独立して検索、多様化、評価、改善が可能なAIシステムへのステップである。
論文 参考訳(メタデータ) (2023-10-19T12:13:58Z) - Calibrating LLM-Based Evaluator [92.17397504834825]
マルチステージで勾配のないアプローチであるAutoCalibrateを提案し,LLMに基づく評価器を人間の好みに合わせて調整・調整する。
人間の嗜好を明示的にモデル化する代わりに、まず暗黙的に人間のラベルに含めます。
複数のテキスト品質評価データセットに関する実験は、校正による専門家評価との相関性を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2023-09-23T08:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。