論文の概要: Fine-Tuning LLMs with Fine-Grained Human Feedback on Text Spans
- arxiv url: http://arxiv.org/abs/2512.23693v1
- Date: Mon, 29 Dec 2025 18:51:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.619071
- Title: Fine-Tuning LLMs with Fine-Grained Human Feedback on Text Spans
- Title(参考訳): テキストスパンの微粒化フィードバックを用いた微粒化LDM
- Authors: Sky CH-Wang, Justin Svegliato, Helen Appel, Jason Eisner,
- Abstract要約: 本稿では,フィードバック駆動型改善連鎖を用いた言語モデルの微調整手法を提案する。
アノテーションは、liked' と disliked' のスパンをマークし、彼らが好きなものや嫌いなものを指定することで、きめ細かいフィードバックを提供する。
ベースモデルはその後、嫌われたスパンを左から右に書き直し、漸進的に改善する。
- 参考スコア(独自算出の注目度): 17.7483169808728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a method and dataset for fine-tuning language models with preference supervision using feedback-driven improvement chains. Given a model response, an annotator provides fine-grained feedback by marking ``liked'' and ``disliked'' spans and specifying what they liked or disliked about them. The base model then rewrites the disliked spans accordingly, proceeding from left to right, forming a sequence of incremental improvements. We construct preference pairs for direct alignment from each adjacent step in the chain, enabling the model to learn from localized, targeted edits. We find that our approach outperforms direct alignment methods based on standard A/B preference ranking or full contrastive rewrites, demonstrating that structured, revision-based supervision leads to more efficient and effective preference tuning.
- Abstract(参考訳): 本稿では,フィードバック駆動型改善連鎖を用いた選好監督型微調整言語モデルのための手法とデータセットを提案する。
モデル応答が与えられた後、アノテーションは ``liked'' と ``disliked'' のスパンをマークし、彼らが好きなものや嫌いなものを指定することで、きめ細かいフィードバックを提供する。
ベースモデルはその後、嫌われたスパンを左から右に書き直し、漸進的に改善する。
チェーン内の各ステップから直接アライメントするための選好ペアを構築し、モデルがローカライズされたターゲット編集から学習できるようにする。
提案手法は,標準のA/B選好ランキングやフルコントラストの書き直しに基づく直接的なアライメント手法よりも優れており,構造化されたリビジョンに基づく監督が,より効率的かつ効果的な選好チューニングをもたらすことを示す。
関連論文リスト
- Configurable Preference Tuning with Rubric-Guided Synthetic Data [0.6526824510982799]
本稿では,言語モデルに明示的,人間解釈可能な指示に基づく行動調整機能を持たせるための新しい枠組みを提案する。
トレーニングコード、生成されたデータセット、微調整されたモデルなど、いくつかの実験的な成果物がhttps://github.com/vicgalle/configurable-preference-tuningでリリースされている。
論文 参考訳(メタデータ) (2025-06-13T12:17:38Z) - Preference Alignment Improves Language Model-Based TTS [76.70693823683091]
選好アライメントアルゴリズムは、報酬モデルの嗜好に合わせてLMを調整し、生成されたコンテンツの望ましさを高める。
1.15B のパラメータ LM に基づく TTS モデルを用いて、嗜好の整合性は常に知性、話者類似性、代用主観的評価スコアを向上することを示した。
論文 参考訳(メタデータ) (2024-09-19T01:58:19Z) - Hard Prompts Made Interpretable: Sparse Entropy Regularization for Prompt Tuning with RL [29.01858866450715]
ソフトQ-ラーニングを利用した最適なプロンプトを見つけることを目的としたRLPromptを提案する。
結果は有望な結果を示す一方で,プロンプトが不自然に現れることがしばしばあり,その解釈可能性を妨げることが確認されている。
この制限をスパルス・ツァリスエントロピー正規化(英語版)を用いて解決する。
論文 参考訳(メタデータ) (2024-07-20T03:10:19Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。
一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-01-21T10:46:23Z) - Are you doing what I say? On modalities alignment in ALFRED [6.46147328920679]
ALFREDは、自然言語の命令によって指定されたシミュレーションされた住宅環境におけるタスクを完了させるモデルを必要とする。
成功への鍵となるモダリティは、テキストを視覚的な入力と正確に整合させることである。
モデルアライメントの改善を目的としたアプローチを導入し、アライメントの改善、エンドタスクのパフォーマンス向上を実証する。
論文 参考訳(メタデータ) (2021-10-12T01:05:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。