論文の概要: A Probabilistic Approach for Alignment with Human Comparisons
- arxiv url: http://arxiv.org/abs/2403.10771v1
- Date: Sat, 16 Mar 2024 02:19:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:54:53.887865
- Title: A Probabilistic Approach for Alignment with Human Comparisons
- Title(参考訳): 人間の比較によるアライメントの確率論的アプローチ
- Authors: Junyu Cao, Mohsen Bayati,
- Abstract要約: 本稿では,騒音データと高次元モデルから生じる制約に対処するために,人間の比較を効果的に活用することを検討する。
本稿では,機械学習と人間のフィードバックを結びつける2段階の"Supervised Fine Tuning+Human Comparison"(SFT+HC)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.6656660956453635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing trend involves integrating human knowledge into learning frameworks, leveraging subtle human feedback to refine AI models. Despite these advances, no comprehensive theoretical framework describing the specific conditions under which human comparisons improve the traditional supervised fine-tuning process has been developed. To bridge this gap, this paper studies the effective use of human comparisons to address limitations arising from noisy data and high-dimensional models. We propose a two-stage "Supervised Fine Tuning+Human Comparison" (SFT+HC) framework connecting machine learning with human feedback through a probabilistic bisection approach. The two-stage framework first learns low-dimensional representations from noisy-labeled data via an SFT procedure, and then uses human comparisons to improve the model alignment. To examine the efficacy of the alignment phase, we introduce a novel concept termed the "label-noise-to-comparison-accuracy" (LNCA) ratio. This paper theoretically identifies the conditions under which the "SFT+HC" framework outperforms pure SFT approach, leveraging this ratio to highlight the advantage of incorporating human evaluators in reducing sample complexity. We validate that the proposed conditions for the LNCA ratio are met in a case study conducted via an Amazon Mechanical Turk experiment.
- Abstract(参考訳): 成長するトレンドは、人間の知識を学習フレームワークに統合し、微妙な人間のフィードバックを活用してAIモデルを洗練することである。
これらの進歩にもかかわらず、人間の比較が従来の微調整プロセスを改善する特定の条件を記述する包括的な理論的枠組みは開発されていない。
このギャップを埋めるために,ノイズデータと高次元モデルから生じる制約に対処するために,人間の比較を効果的に活用することを検討した。
確率的二分法を用いて機械学習と人間のフィードバックを結びつける2段階の「スーパービジョン・ファインチューニング+Human Comparison」(SFT+HC)フレームワークを提案する。
この2段階のフレームワークは、まずSFTプロシージャを介してノイズラベル付きデータから低次元の表現を学習し、続いて人間比較を用いてモデルアライメントを改善する。
本稿では,アライメントフェーズの有効性を検討するために,LNCA(label-noise-to-comparison-accuracy)という新しい概念を導入する。
本稿では,「SFT+HC」フレームワークが純粋なSFTアプローチより優れている条件を理論的に同定し,この比を利用して,サンプルの複雑さの低減にヒト評価器を組み込むことの利点を明らかにする。
LNCA比の条件がAmazon Mechanical Turk実験によって実施されたケーススタディで満たされていることを検証した。
関連論文リスト
- CauSkelNet: Causal Representation Learning for Human Behaviour Analysis [6.880536510094897]
本研究では,人間の関節動態や複雑な動作をよりよく理解するために,因果推論に基づく表現学習手法を提案する。
我々のアプローチは、人間の動作分析を前進させ、より適応的なインテリジェントヘルスケアソリューションの道を開く。
論文 参考訳(メタデータ) (2024-09-23T21:38:49Z) - Using Self-supervised Learning Can Improve Model Fairness [10.028637666224093]
自己教師型学習(SSL)は,大規模モデルのデファクトトレーニングパラダイムとなっている。
本研究では,事前学習と微調整が公正性に及ぼす影響について検討する。
SSLの公平性評価フレームワークを導入し、データセット要件の定義、事前トレーニング、段階的凍結による微調整、人口統計学的に条件付けられた表現類似性の評価、ドメイン固有の評価プロセスの確立の5段階を含む。
論文 参考訳(メタデータ) (2024-06-04T14:38:30Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Learnability of Competitive Threshold Models [11.005966612053262]
理論的観点から,競合しきい値モデルの学習可能性について検討する。
ニューラルネットワークによって競合しきい値モデルをシームレスにシミュレートする方法を実証する。
論文 参考訳(メタデータ) (2022-05-08T01:11:51Z) - A Unified Contrastive Energy-based Model for Understanding the
Generative Ability of Adversarial Training [64.71254710803368]
Adversarial Training (AT) は、ディープニューラルネットワークの堅牢性を高める効果的なアプローチである。
我々は、Contrastive Energy-based Models(CEM)と呼ばれる統合確率的枠組みを開発することにより、この現象をデミステレーションする。
本稿では,逆学習法とサンプリング法を開発するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:33:34Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Domain Knowledge Integration By Gradient Matching For Sample-Efficient
Reinforcement Learning [0.0]
本研究では,モデルフリー学習者を支援するために,ダイナミックスからの目標勾配情報を活用することで,サンプル効率を向上させる勾配マッチングアルゴリズムを提案する。
本稿では,モデルに基づく学習者からの勾配情報と,抽象的な低次元空間におけるモデル自由成分とをマッチングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-28T05:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。