Fugu-MT 論文翻訳(概要): ULMA: Unified Language Model Alignment with Demonstration and Point-wise Human Preference

論文の概要: ULMA: Unified Language Model Alignment with Demonstration and Point-wise Human Preference

arxiv url: http://arxiv.org/abs/2312.02554v1
Date: Tue, 5 Dec 2023 07:52:12 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 16:29:35.119116
Title: ULMA: Unified Language Model Alignment with Demonstration and Point-wise Human Preference
Title（参考訳）: ULMA:Demonstration と Point-wise Human Preferenceによる統一言語モデルアライメント
Authors: Tianchi Cai, Xierui Song, Jiyan Jiang, Fei Teng, Jinjie Gu, Guannan Zhang
Abstract要約: 最近のアライメントフレームワークは、デモデータによる教師付き微調整と、人間の嗜好データによる嗜好学習の2つのステップで構成されている。まず、ポイントワイズDPOと呼ばれる選好学習手法を開発し、ポイントワイズ選好データに対処する。教師付き微調整とポイントワイド選好学習の関連性に関するさらなる啓示により、人間の実演とポイントワイド選好データの両方に統一的な枠組みを構築することができる。
参考スコア（独自算出の注目度）: 16.73260713938154
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Language model alignment is a cutting-edge technique in large language model training to align the model output to user's intent, e.g., being helpful and harmless. Recent alignment framework consists of two steps: supervised fine-tuning with demonstration data and preference learning with human preference data. Previous preference learning methods, such as RLHF and DPO, mainly focus on pair-wise preference data. However, in many real-world scenarios where human feedbacks are intrinsically point-wise, these methods will suffer from information loss or even fail. To fill this gap, in this paper, we first develop a preference learning method called point-wise DPO to tackle point-wise preference data. Further revelation on the connection between supervised fine-tuning and point-wise preference learning enables us to develop a unified framework for both human demonstration and point-wise preference data, which sheds new light on the construction of preference dataset. Extensive experiments on point-wise datasets with binary or continuous labels demonstrate the superior performance and efficiency of our proposed methods. A new dataset with high-quality demonstration samples on harmlessness is constructed and made publicly available.
Abstract（参考訳）: 言語モデルのアライメント(Language model alignment)は、大規模言語モデルのトレーニングにおいて、モデルの出力をユーザの意図に合わせるための最先端のテクニックである。最近のアライメントフレームワークは、デモデータによる教師付き微調整と、人間の嗜好データによる嗜好学習の2つのステップで構成されている。 RLHFやDPOといった従来の選好学習手法は主にペアワイド選好データに重点を置いている。しかし、人間のフィードバックが本質的にポイントワイズな現実のシナリオでは、これらの手法は情報損失や失敗に悩まされる。本稿では,このギャップを埋めるため,まずポイントワイズdpoと呼ばれる選好学習法を開発し,ポイントワイズ選好データを取り扱う。教師付き微調整とポイントワイド選好学習の関連性に関するさらなる啓示により、人間の実演とポイントワイド選好データの両方のための統一的なフレームワークを開発することができ、選好データセットの構築に新たな光を当てることができる。二項ラベルや連続ラベルを用いたポイントワイズデータセットの広範な実験により,提案手法の性能と効率が示された。有害性に関する高品質なデモサンプルを備えた新しいデータセットを構築し、公開している。

関連論文リスト

Intuitionistic Fuzzy Sets for Large Language Model Data Annotation: A Novel Approach to Side-by-Side Preference Labeling [0.0]
本稿では,多言語モデル(LLM)における人間の嗜好をモデル化・集約するための直観的ファジィ集合(IFS)に基づく新しい枠組みを提案する。我々のアプローチは、選好の度合いだけでなく、メンバーシップ、非メンバーシップ、およびヒューイテーションの度合いを通じて、人間の判断に固有の不確実性や偏見も捉えている。複数のデータセットに対する実験的検証は、我々のIFSベースのアプローチがアノテーションの一貫性を大幅に改善し、アノテータの疲労を低減し、高品質な嗜好データを生成することを示した。
論文参考訳（メタデータ） (2025-05-30T04:20:00Z)
Multi-Level Aware Preference Learning: Enhancing RLHF for Complex Multi-Instruction Tasks [81.44256822500257]
RLHFは、人工知能システムと人間の好みを結びつける主要なアプローチとして登場した。 RLHFは、複雑なマルチインストラクションタスクに直面すると、不十分なコンプライアンス機能を示す。本稿では,マルチインストラクション能力を向上させる新しいMAPL(Multi-level Aware Preference Learning)フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-19T08:33:11Z)
Sharpe Ratio-Guided Active Learning for Preference Optimization in RLHF [67.48004037550064]
本稿では,プロンプトと選好のペアを効率的に選択する能動的学習手法を提案する。提案手法は,モデル更新に対する影響を評価するために,すべての潜在的選好アノテーションの勾配を評価する。実験の結果,提案手法は,選択した完了に対する勝利率を最大5%向上させることがわかった。
論文参考訳（メタデータ） (2025-03-28T04:22:53Z)
From Demonstrations to Rewards: Alignment Without Explicit Human Preferences [55.988923803469305]
本稿では,逆強化学習原理に基づく学習アライメントの新たな視点を提案する。大規模な選好データに頼る代わりに、デモデータから報酬モデルを直接学習する。
論文参考訳（メタデータ） (2025-03-15T20:53:46Z)
VLP: Vision-Language Preference Learning for Embodied Manipulation [29.7387976970634]
具体的操作タスクに対する好みフィードバックを提供するための視覚言語選好モデルを提案する。選好モデルは言語に関連する特徴を抽出し、様々な下流タスクにおいて選好アノテータとして機能する。提案手法は,未知のタスクや未知の言語命令に対して,精度の高い選好と一般化を提供し,ベースラインを大きなマージンで上回る。
論文参考訳（メタデータ） (2025-02-17T15:32:14Z)
Aligning Visual Contrastive learning models via Preference Optimization [0.9438963196770565]
本稿では,複雑な概念を分解するために,優先度最適化(PO)を用いたコントラスト学習モデルの学習方法を提案する。提案手法は,モデル行動と所望の嗜好を体系的に整合させ,目標タスクの性能を向上させる。特に、CLIPのような対照的なモデルでよく見られる、タイポグラフィー攻撃に対するモデル堅牢性の向上に焦点を当てる。さらに, 性別の理解を阻害し, 性別の偏見を緩和するために本手法を適用し, センシティブな属性をより微妙に制御する。
論文参考訳（メタデータ） (2024-11-12T08:14:54Z)
Hybrid Preferences: Learning to Route Instances for Human vs. AI Feedback [87.37721254914476]
アノテーションの品質向上のために,人間とLMの入力を組み合わせたルーティングフレームワークを提案する。我々は、人間とLMアノテーションの任意の組み合わせで報酬モデルの性能を予測するために、性能予測モデルを訓練する。選択したハイブリッド混合物は,一方のみ使用した場合と比較して,報奨モデルの性能が向上することを示す。
論文参考訳（メタデータ） (2024-10-24T20:04:15Z)
Investigating on RLHF methodology [0.0]
本稿では,人間の嗜好をシミュレートする選好モデル(Preference Model)の訓練の特徴と,最良の結果を達成する上で不可欠な方法や詳細について論じる。また、強化学習(Reinforcement Learning)を用いて大規模言語モデルを微調整し、直面した課題と克服方法を説明する。
論文参考訳（メタデータ） (2024-10-02T17:46:22Z)
Less for More: Enhancing Preference Learning in Generative Language Models with Automated Self-Curation of Training Corpora [4.008122785948581]
言語における曖昧さは、より強化された言語モデルを開発する上での課題である。本稿では,これらのデータセットを直接トレーニングしたプロキシモデルを活用することで,アノテーション付きデータセットを前処理するセルフキュレーション手法を提案する。提案手法は,データセット内の曖昧なアノテーションを自動的に検出し,削除することにより,嗜好学習を強化する。
論文参考訳（メタデータ） (2024-08-23T02:27:14Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
Inverse-RLignment: Large Language Model Alignment from Demonstrations through Inverse Reinforcement Learning [62.05713042908654]
本稿では,これらの課題を克服するために,高品質な実演データを活用する新しいアプローチであるAlignment from Demonstrations (AfD)を紹介する。 AfDをシーケンシャルな意思決定フレームワークで形式化し、報酬信号の欠如というユニークな課題を強調します。そこで本研究では,AfD に適した報酬モデル上で補間を行う計算効率のよいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-05-24T15:13:53Z)
MaxMin-RLHF: Towards Equitable Alignment of Large Language Models with Diverse Human Preferences [101.57443597426374]
Reinforcement Learning from Human Feedback (RLHF) は、言語モデルと人間の嗜好を一致させる。予測最大化アルゴリズムを用いて嗜好分布の混合を学習し、人間の嗜好をよりよく表現する。従来のRLHFアルゴリズムよりも16%以上の勝利率向上を実現している。
論文参考訳（メタデータ） (2024-02-14T03:56:27Z)
Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文参考訳（メタデータ） (2024-02-12T23:09:00Z)
Linear Alignment: A Closed-form Solution for Aligning Human Preferences without Tuning and Feedback [70.32795295142648]
リニアアライメントは、言語モデルと人間の好みを1つの推論ステップで整列する新しいアルゴリズムである。一般的な選好データセットとパーソナライズされた選好データセットの実験により、線形アライメントはLLMアライメントの性能と効率を大幅に向上させることが示された。
論文参考訳（メタデータ） (2024-01-21T10:46:23Z)
Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文参考訳（メタデータ） (2023-12-01T00:54:02Z)
Constructive Large Language Models Alignment with Diverse Feedback [76.9578950893839]
本稿では,大規模言語モデルのアライメント向上のための新しい手法として,コンストラクティブ・ディバース・フィードバック(CDF)を導入する。我々は,簡単な問題に対する批判的フィードバック,中級問題に対する改善的フィードバック,難題に対する選好的フィードバックを利用する。このような多様なフィードバックでモデルをトレーニングすることで、トレーニングデータの少ない使用でアライメント性能を向上させることができる。
論文参考訳（メタデータ） (2023-10-10T09:20:14Z)
Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文参考訳（メタデータ） (2023-02-06T10:28:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。