論文の概要: Teaching LLMs Human-Like Editing of Inappropriate Argumentation via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2604.12770v1
- Date: Tue, 14 Apr 2026 14:10:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.486478
- Title: Teaching LLMs Human-Like Editing of Inappropriate Argumentation via Reinforcement Learning
- Title(参考訳): 強化学習による不適切な論証の人為的な編集を指導するLLM
- Authors: Timon Ziegenbein, Maja Stahl, Henning Wachsmuth,
- Abstract要約: 本稿では,大規模言語モデル(LLM)による人文的な編集を指導し,議論の適切性を向上させるための強化学習手法を提案する。
提案手法は,独立して受理・拒否できる自己完結型文レベルの編集提案を生成する。
人間のような編集において、競争力のあるベースラインと技術の状態を上回り、複数ラウンドの編集が完全な書き換えに近い適切性を達成する。
- 参考スコア(独自算出の注目度): 17.493071928687993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Editing human-written text has become a standard use case of large language models (LLMs), for example, to make one's arguments more appropriate for a discussion. Comparing human to LLM-generated edits, however, we observe a mismatch in editing strategies: While LLMs often perform multiple scattered edits and tend to change meaning notably, humans rather encapsulate dependent changes in self-contained, meaning-preserving edits. In this paper, we present a reinforcement learning approach that teaches LLMs human-like editing to improve the appropriateness of arguments. Our approach produces self-contained sentence-level edit suggestions that can be accepted or rejected independently. We train the approach using group relative policy optimization with a multi-component reward function that jointly optimizes edit-level semantic similarity, fluency, and pattern conformity as well as argument-level appropriateness. In automatic and human evaluation, it outperforms competitive baselines and the state of the art in human-like editing, with multi-round editing achieving appropriateness close to full rewriting.
- Abstract(参考訳): 人間によるテキストの編集は、例えば、議論のために議論をより適切にするために、大きな言語モデル(LLM)の標準的なユースケースとなっている。
LLMは、しばしば複数の散在した編集を行い、意味を変える傾向があるが、人間は、自己完結した、意味保存された編集の依存的な変化をカプセル化しがちである。
本稿では,LLMに人間的な編集を指導し,議論の適切性を向上させるための強化学習手法を提案する。
提案手法は,独立して受理・拒否できる自己完結型文レベルの編集提案を生成する。
グループ相対ポリシー最適化と多成分報酬関数を併用して,編集レベルのセマンティックな類似性,フラエンシ,パターンの整合性を,引数レベルの適切性とともに共同で最適化するアプローチを訓練する。
自動的および人的評価において、ヒトのような編集において、競争力のあるベースラインと最先端の技術を上回り、複数ラウンドの編集が完全な書き換えに近い適切性を達成する。
関連論文リスト
- Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward [45.04954385478936]
コンテキストセット,エージェントの応答,ユーザ編集からなるユーザ編集配置データを用いて,LCMの微調整を行う方法について検討する。
このセットアップでは、好み、教師付きラベル、コストなど、さまざまなフィードバックタイプが統合される。
これらのフィードバックタイプから共同で学習するための簡単なアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2026-01-27T00:31:04Z) - InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [86.17245523439514]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。
この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。
編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:20:18Z) - Assessing Human Editing Effort on LLM-Generated Texts via Compression-Based Edit Distance [2.1792283995628465]
Levenshtein、BLEU、ROUGE、TERといった既存の編集距離のメトリクスは、後編集に必要な労力を正確に測定できないことが多い。
本稿では,Lempel-Ziv-77アルゴリズムに基づく新しい圧縮ベース編集距離測定手法を提案する。
論文 参考訳(メタデータ) (2024-12-23T06:29:25Z) - Can AI writing be salvaged? Mitigating Idiosyncrasies and Improving Human-AI Alignment in the Writing Process through Edits [39.00434175773803]
私たちはプロの作家を雇い、いくつかの創造的なドメインで段落を編集しました。
LAMPコーパス 1,057 LLM- generated paragraphs by professional writer based by our taxonomy。
LAMPの分析から,本研究で用いたLLMはいずれも,書字品質の面では優れていないことが明らかとなった。
論文 参考訳(メタデータ) (2024-09-22T16:13:00Z) - ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。
従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。
本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文 参考訳(メタデータ) (2024-08-19T02:27:00Z) - Harnessing the Power of LLMs: Evaluating Human-AI Text Co-Creation
through the Lens of News Headline Generation [58.31430028519306]
本研究は, LLMを書き込みに最も有効に活用する方法と, これらのモデルとのインタラクションが, 書き込みプロセスにおけるオーナシップや信頼感にどのように影響するかを考察する。
LLMだけで十分なニュースの見出しを生成することができるが、平均すると、望ましくないモデルのアウトプットを修正するには人間による制御が必要である。
論文 参考訳(メタデータ) (2023-10-16T15:11:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。