論文の概要: Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward
- arxiv url: http://arxiv.org/abs/2601.19055v1
- Date: Tue, 27 Jan 2026 00:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.103726
- Title: Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward
- Title(参考訳): ユーザ編集からのLCMの原理的微調整--選好とスーパービジョンとリワードのメドレー
- Authors: Dipendra Misra, Aldo Pacchiano, Ta-Chung Chi, Ge Gao,
- Abstract要約: コンテキストセット,エージェントの応答,ユーザ編集からなるユーザ編集配置データを用いて,LCMの微調整を行う方法について検討する。
このセットアップでは、好み、教師付きラベル、コストなど、さまざまなフィードバックタイプが統合される。
これらのフィードバックタイプから共同で学習するための簡単なアンサンブル手法を提案する。
- 参考スコア(独自算出の注目度): 45.04954385478936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to fine-tune LLMs using user-edit deployment data consisting of a set of context, an agent's response, and user edits. This deployment data is naturally generated by users in applications such as LLMs-based writing assistants and coding agents. The _natural_ origin of user edits makes it a desired source for adapting and personalizing LLMs. In this setup, there emerges a unification of various feedback types namely preferences, supervised labels, and cost that are typically studied separately in the literature. In this paper, we initiate the theoretical investigation of learning from user edits. We first derive bounds for learning algorithms that learn from each of these feedback types. We prove that these algorithms have different trade-offs depending upon the user, data distribution, and model class. We then propose a simple ensembling procedure to jointly learn from these feedback types. On two domains adapted from Gao et al. 2024, we show our ensembling procedure outperforms these methods that learn from individual feedback. Further, we show that our proposed procedure can robustly adapt to different user-edit distributions at test time.
- Abstract(参考訳): コンテキストセット,エージェントの応答,ユーザ編集からなるユーザ編集デプロイメントデータを用いて,LCMの微調整を行う方法について検討する。
このデプロイメントデータは、LLMベースの書き込みアシスタントやコーディングエージェントなどのアプリケーションで、ユーザが自然に生成します。
ユーザー編集の_natural_ Originsは、LLMの適応とパーソナライズを希望するソースとなっている。
この設定では、様々なフィードバックタイプ、例えば好み、教師付きラベル、そして典型的には文学において別々に研究されるコストの統一が出現する。
本稿では,ユーザ編集からの学習に関する理論的調査を開始する。
まず、これらのフィードバックタイプから学習する学習アルゴリズムのバウンダリを導出します。
これらのアルゴリズムは、ユーザ、データ分散、モデルクラスによって異なるトレードオフを持つことを示す。
次に、これらのフィードバックタイプから共同で学習する簡単なアンサンブル手順を提案する。
ガオら2024から適応した2つの領域について,個々のフィードバックから学習するこれらの手法より,本手法が優れていることを示す。
さらに,提案手法は,テスト時に異なるユーザ・エジット分布に頑健に適応できることを示す。
関連論文リスト
- CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - From Prompting to Alignment: A Generative Framework for Query Recommendation [35.654879254147964]
本稿では,クエリ生成とユーザの好みを一致させる生成クエリ推薦(GQR)フレームワークを提案する。
具体的には、多様なクエリレコメンデーションタスクを普遍的なプロンプトフレームワークで統一する。
また,クエリワイドCTR予測器をプロセス報酬モデルとしてトレーニングするCTRアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T13:21:29Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Aligning LLM Agents by Learning Latent Preference from User Edits [23.235995078727658]
本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。
本稿では,履歴編集データに基づいてユーザの潜伏傾向を推定する学習フレームワーク PreLUDE を提案する。
本稿では,要約とメール作成という2つの対話型環境を導入し,GPT-4シミュレーションユーザを用いて評価を行う。
論文 参考訳(メタデータ) (2024-04-23T17:57:47Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。