論文の概要: Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward
- arxiv url: http://arxiv.org/abs/2601.19055v1
- Date: Tue, 27 Jan 2026 00:31:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-28 15:26:51.103726
- Title: Principled Fine-tuning of LLMs from User-Edits: A Medley of Preference, Supervision, and Reward
- Title(参考訳): ユーザ編集からのLCMの原理的微調整--選好とスーパービジョンとリワードのメドレー
- Authors: Dipendra Misra, Aldo Pacchiano, Ta-Chung Chi, Ge Gao,
- Abstract要約: コンテキストセット,エージェントの応答,ユーザ編集からなるユーザ編集配置データを用いて,LCMの微調整を行う方法について検討する。
このセットアップでは、好み、教師付きラベル、コストなど、さまざまなフィードバックタイプが統合される。
これらのフィードバックタイプから共同で学習するための簡単なアンサンブル手法を提案する。
- 参考スコア(独自算出の注目度): 45.04954385478936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study how to fine-tune LLMs using user-edit deployment data consisting of a set of context, an agent's response, and user edits. This deployment data is naturally generated by users in applications such as LLMs-based writing assistants and coding agents. The _natural_ origin of user edits makes it a desired source for adapting and personalizing LLMs. In this setup, there emerges a unification of various feedback types namely preferences, supervised labels, and cost that are typically studied separately in the literature. In this paper, we initiate the theoretical investigation of learning from user edits. We first derive bounds for learning algorithms that learn from each of these feedback types. We prove that these algorithms have different trade-offs depending upon the user, data distribution, and model class. We then propose a simple ensembling procedure to jointly learn from these feedback types. On two domains adapted from Gao et al. 2024, we show our ensembling procedure outperforms these methods that learn from individual feedback. Further, we show that our proposed procedure can robustly adapt to different user-edit distributions at test time.
- Abstract(参考訳): コンテキストセット,エージェントの応答,ユーザ編集からなるユーザ編集デプロイメントデータを用いて,LCMの微調整を行う方法について検討する。
このデプロイメントデータは、LLMベースの書き込みアシスタントやコーディングエージェントなどのアプリケーションで、ユーザが自然に生成します。
ユーザー編集の_natural_ Originsは、LLMの適応とパーソナライズを希望するソースとなっている。
この設定では、様々なフィードバックタイプ、例えば好み、教師付きラベル、そして典型的には文学において別々に研究されるコストの統一が出現する。
本稿では,ユーザ編集からの学習に関する理論的調査を開始する。
まず、これらのフィードバックタイプから学習する学習アルゴリズムのバウンダリを導出します。
これらのアルゴリズムは、ユーザ、データ分散、モデルクラスによって異なるトレードオフを持つことを示す。
次に、これらのフィードバックタイプから共同で学習する簡単なアンサンブル手順を提案する。
ガオら2024から適応した2つの領域について,個々のフィードバックから学習するこれらの手法より,本手法が優れていることを示す。
さらに,提案手法は,テスト時に異なるユーザ・エジット分布に頑健に適応できることを示す。
関連論文リスト
- PrLM: Learning Explicit Reasoning for Personalized RAG via Contrastive Reward Optimization [4.624026598342624]
検索したユーザプロファイルを明示的に推論するために,LLMをトレーニングする強化学習フレームワークであるPrLMを提案する。
PrLMは、注釈付き推論パスを必要とせずに、ユーザの応答から効果的に学習する。
3つのパーソナライズされたテキスト生成データセットの実験は、PrLMが既存の手法より優れていることを示している。
論文 参考訳(メタデータ) (2025-08-10T13:37:26Z) - CompassVerifier: A Unified and Robust Verifier for LLMs Evaluation and Outcome Reward [50.97588334916863]
評価と結果報酬のための正確で堅牢な軽量検証モデルであるCompassVerifierを開発した。
数学、知識、多種多様な推論タスクにまたがる多分野の能力を示し、様々な答えの型を処理する能力を示す。
我々は,複数のデータソースから収集したモデル出力からなるVerifierBenchベンチマークを導入し,メタエラーパターンを手動で解析してCompassVerifierを強化する。
論文 参考訳(メタデータ) (2025-08-05T17:55:24Z) - Revisiting Prompt Engineering: A Comprehensive Evaluation for LLM-based Personalized Recommendation [2.3650193864974978]
大規模言語モデル(LLM)は、自然言語で書かれたプロンプトを入力として取り込むことで推奨タスクを実行することができる。
本稿では,他のユーザからの情報を一切使用しない単一ユーザ設定に焦点をあてる。
論文 参考訳(メタデータ) (2025-07-17T20:26:00Z) - HyPerAlign: Interpretable Personalized LLM Alignment via Hypothesis Generation [24.67727411391369]
HyPerAlignは、大規模言語モデルに対する解釈可能かつサンプル効率の仮説駆動パーソナライズアプローチである。
我々は2つの異なるパーソナライズタスク、すなわち著者帰属と熟考的アライメントについて実験を行った。
その結果、仮説駆動型パーソナライゼーションの方が好みに基づく微調整法よりも優れていることが示された。
論文 参考訳(メタデータ) (2025-04-29T18:01:46Z) - From Prompting to Alignment: A Generative Framework for Query Recommendation [35.654879254147964]
本稿では,クエリ生成とユーザの好みを一致させる生成クエリ推薦(GQR)フレームワークを提案する。
具体的には、多様なクエリレコメンデーションタスクを普遍的なプロンプトフレームワークで統一する。
また,クエリワイドCTR予測器をプロセス報酬モデルとしてトレーニングするCTRアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T13:21:29Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Aligning LLM Agents by Learning Latent Preference from User Edits [23.235995078727658]
本研究では,エージェントの出力に対するユーザ編集に基づいて,言語エージェントの対話的学習について検討する。
本稿では,履歴編集データに基づいてユーザの潜伏傾向を推定する学習フレームワーク PreLUDE を提案する。
本稿では,要約とメール作成という2つの対話型環境を導入し,GPT-4シミュレーションユーザを用いて評価を行う。
論文 参考訳(メタデータ) (2024-04-23T17:57:47Z) - Can LLMs Generate Human-Like Wayfinding Instructions? Towards Platform-Agnostic Embodied Instruction Synthesis [51.04181562775778]
本稿では,ロボットエージェントの「ウェイフィンディング指示」を自動的に合成する手法を提案する。
提案アルゴリズムは,LLMの条件付けにコンテキスト内学習を用い,わずかな参照を用いて命令を生成する。
我々は,Matterport3D,AI Habitat,ThreeDWorldなど,複数のシミュレーションプラットフォームにアプローチを実装した。
論文 参考訳(メタデータ) (2024-03-18T05:38:07Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z) - Guiding Large Language Models via Directional Stimulus Prompting [114.84930073977672]
我々は,特定の所望の出力に対して,ブラックボックス大言語モデル(LLM)を導くための新しいフレームワークであるDirectional Stimulus Promptingを紹介する。
LLMを直接調整するのではなく、小さな調整可能なポリシーモデルを用いて各入力インスタンスに対して補助的な指向性刺激プロンプトを生成する。
論文 参考訳(メタデータ) (2023-02-22T17:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。