論文の概要: Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting
- arxiv url: http://arxiv.org/abs/2503.06781v1
- Date: Sun, 09 Mar 2025 21:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:53:14.704515
- Title: Dr Genre: Reinforcement Learning from Decoupled LLM Feedback for Generic Text Rewriting
- Title(参考訳): Genre博士: ジェネリックテキスト書き換えのための非結合LLMフィードバックからの強化学習
- Authors: Yufei Li, John Nham, Ganesh Jawahar, Lei Shu, David Uthus, Yun-Hsuan Sung, Chengrun Yang, Itai Rolnick, Yi Qiao, Cong Liu,
- Abstract要約: 本稿では,現実性,スタイリスティック性,会話性に優れた汎用モデルを提案する。
実世界のユーザリライト要求をシミュレートするために,会話によるリライトデータセットChatRewriteを構築した。
タスク固有の目的に合わせるために、ジェネリック書き換えのためのデカップリング・リワード学習フレームワークであるDr Genreを提案する。
- 参考スコア(独自算出の注目度): 15.796381427671681
- License:
- Abstract: Generic text rewriting is a prevalent large language model (LLM) application that covers diverse real-world tasks, such as style transfer, fact correction, and email editing. These tasks vary in rewriting objectives (e.g., factual consistency vs. semantic preservation), making it challenging to develop a unified model that excels across all dimensions. Existing methods often specialize in either a single task or a specific objective, limiting their generalizability. In this work, we introduce a generic model proficient in factuality, stylistic, and conversational rewriting tasks. To simulate real-world user rewrite requests, we construct a conversational rewrite dataset, ChatRewrite, that presents ``natural''-sounding instructions, from raw emails using LLMs. Combined with other popular rewrite datasets, including LongFact for the factuality rewrite task and RewriteLM for the stylistic rewrite task, this forms a broad benchmark for training and evaluating generic rewrite models. To align with task-specific objectives, we propose Dr Genre, a Decoupled-reward learning framework for Generic rewriting, that utilizes objective-oriented reward models with a task-specific weighting. Evaluation shows that \approach delivers higher-quality rewrites across all targeted tasks, improving objectives including instruction following (agreement), internal consistency (coherence), and minimal unnecessary edits (conciseness).
- Abstract(参考訳): ジェネリックテキスト書き換え(ジェネリックテキスト書き換え、英: Generic text rewriting)は、スタイル転送、事実修正、電子メール編集など、様々な現実世界のタスクをカバーする、一般的な大規模言語モデル(LLM)アプリケーションである。
これらのタスクは、目的(例えば、事実整合性対意味保存)を書き換えることによって異なり、すべての次元にまたがる統一モデルの開発が困難になる。
既存の方法はしばしば一つのタスクまたは特定の目的に特化し、その一般化性を制限する。
本研究では,現実性,スタイリスティック性,会話性に優れた汎用モデルを提案する。
実世界のユーザリライト要求をシミュレートするために,LLMを用いた生メールから ``natural''-sounding 命令を提示する会話型リライトデータセットである ChatRewrite を構築した。
事実書き直しタスクのLongFactやスタイリスティック書き直しタスクのRewriteLMなど、他の一般的な書き直しデータセットと組み合わせることで、一般的な書き直しモデルのトレーニングと評価のための広範なベンチマークを形成する。
タスク固有の目的に合わせるために、タスク固有の重み付けによる目的指向報酬モデルを利用するジェネリック書き換えのためのデカップリング・リワード学習フレームワークであるDr Genreを提案する。
評価によると、‘approach’は、すべてのタスクに対して高品質なリライトを提供し、インストラクション(アグリメント)、内部の一貫性(コヒーレンス)、最小限の不要な編集(簡潔さ)を含む目的を改善している。
関連論文リスト
- RaFe: Ranking Feedback Improves Query Rewriting for RAG [83.24385658573198]
アノテーションを使わずにクエリ書き換えモデルをトレーニングするためのフレームワークを提案する。
公開されているリランカを活用することで、フィードバックはリライトの目的とよく一致します。
論文 参考訳(メタデータ) (2024-05-23T11:00:19Z) - Eliciting Human Preferences with Language Models [56.68637202313052]
言語モデル(LM)は、ラベル付き例や自然言語のプロンプトを使用してターゲットタスクを実行するように指示することができる。
タスク仕様プロセスのガイドには*LM自身を使うことを提案します。
我々は、メール検証、コンテンツレコメンデーション、道徳的推論の3つの領域でGATEを研究している。
論文 参考訳(メタデータ) (2023-10-17T21:11:21Z) - Enhancing Conversational Search: Large Language Model-Aided Informative
Query Rewriting [42.35788605017555]
本稿では,大規模言語モデル(LLM)をクエリリフレクタとして利用することを提案する。
精巧な書き直しのための4つの重要な特性を定義し、それら全てをインストラクションに組み込む。
初期クエリの書き直しが可能な場合, LLM の書き直しエディタの役割を導入し, "書き直し-テーマ-編集" プロセスを作成する。
論文 参考訳(メタデータ) (2023-10-15T03:04:17Z) - Interactive Editing for Text Summarization [30.46273082913698]
REVISEは、人間の書き手による要約の反復的な編集と洗練を容易にするために設計されたフレームワークである。
中心となるREVISEは、エンコーダ・デコーダアーキテクチャによる中間モデルの修正を取り入れている。
論文 参考訳(メタデータ) (2023-06-05T17:43:53Z) - RewriteLM: An Instruction-Tuned Large Language Model for Text Rewriting [11.306772273707253]
大規模言語モデル(LLM)は、ストーリーテリングや電子メール生成といった創造的なタスクにおいて、印象的な機能を示している。
我々は,命令チューニングと強化学習のための新しい戦略を開発し,文間書き直し作業のためのLLMの整合性を向上する。
OpenRewriteEvalは、自然言語命令で表現される多種多様な書き換えタイプをカバーする新しいベンチマークである。
論文 参考訳(メタデータ) (2023-05-25T03:26:26Z) - Improving Cross-task Generalization of Unified Table-to-text Models with
Compositional Task Configurations [63.04466647849211]
メソッドは通常、タスク情報をエンコーダのプレフィックスとして単純なデータセット名でエンコードする。
本稿では,エンコーダがタスク間の一般化を改善するためのプロンプトセットであるコンポジションタスク構成を提案する。
これは、モデルがトレーニング中に異なるタスク間で共有知識をより良く学習できるだけでなく、新しい構成を構築することでモデルを制御できることを示している。
論文 参考訳(メタデータ) (2022-12-17T02:20:14Z) - PEER: A Collaborative Language Model [70.11876901409906]
PEER(コラボレーティブ言語モデル)は,記述プロセス全体を模倣した言語モデルである。
PEERは、ドラフトの作成、提案の追加、編集の提案、アクションの説明を提供することができる。
PEERは様々な領域にまたがって高い性能を示し,編集作業を行う。
論文 参考訳(メタデータ) (2022-08-24T16:56:47Z) - Letter-level Online Writer Identification [86.13203975836556]
我々は文字レベルのオンラインライタIDという新たな問題に焦点をあてる。
主な課題は、しばしば異なるスタイルで手紙を書くことである。
我々はこの問題をオンライン書記スタイルのばらつき(Var-O-Styles)と呼ぶ。
論文 参考訳(メタデータ) (2021-12-06T07:21:53Z) - Substance over Style: Document-Level Targeted Content Transfer [42.18770674148932]
文書レベルのターゲットコンテンツ転送のタスクを導入し、レシピドメインで対処する。
生成事前学習言語モデル(GPT-2)に基づく新しいタスクモデルを提案する。
自動評価と人的評価の両方で、我々のモデルは既存の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-16T20:26:10Z) - Pre-training via Paraphrasing [96.79972492585112]
教師なし多言語パラフレージング目的を用いて学習した,事前学習されたシーケンス・ツー・シーケンスモデルであるMARGEを紹介する。
ランダムな初期化のみを前提として,検索と再構築を共同で行うことができることを示す。
例えば、追加のタスク固有のトレーニングがなければ、文書翻訳のBLEUスコアは最大35.8に達する。
論文 参考訳(メタデータ) (2020-06-26T14:43:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。