論文の概要: A Probabilistic Approach for Model Alignment with Human Comparisons
- arxiv url: http://arxiv.org/abs/2403.10771v2
- Date: Sat, 01 Feb 2025 21:28:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:37.213324
- Title: A Probabilistic Approach for Model Alignment with Human Comparisons
- Title(参考訳): モデルアライメントと人間比較の確率論的アプローチ
- Authors: Junyu Cao, Mohsen Bayati,
- Abstract要約: 本研究では,従来の教師あり学習プロセスを強化できる条件を解析するための理論的枠組みを開発する。
本稿では,機械学習と人間のフィードバックを結びつける2段階の"Supervised Learning+Learning from Human Feedback"(SL+LHF)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.6656660956453635
- License:
- Abstract: A growing trend involves integrating human knowledge into learning frameworks, leveraging subtle human feedback to refine AI models. While these approaches have shown promising results in practice, the theoretical understanding of when and why such approaches are effective remains limited. This work takes steps toward developing a theoretical framework for analyzing the conditions under which human comparisons can enhance the traditional supervised learning process. Specifically, this paper studies the effective use of noisy-labeled data and human comparison data to address challenges arising from noisy environment and high-dimensional models. We propose a two-stage "Supervised Learning+Learning from Human Feedback" (SL+LHF) framework that connects machine learning with human feedback through a probabilistic bisection approach. The two-stage framework first learns low-dimensional representations from noisy-labeled data via an SL procedure and then uses human comparisons to improve the model alignment. To examine the efficacy of the alignment phase, we introduce a concept, termed the "label-noise-to-comparison-accuracy" (LNCA) ratio. This paper identifies from a theoretical perspective the conditions under which the "SL+LHF" framework outperforms the pure SL approach; we then leverage this LNCA ratio to highlight the advantage of incorporating human evaluators in reducing sample complexity. We validate that the LNCA ratio meets the proposed conditions for its use through a case study conducted via Amazon Mechanical Turk (MTurk).
- Abstract(参考訳): 成長するトレンドは、人間の知識を学習フレームワークに統合し、微妙な人間のフィードバックを活用してAIモデルを洗練することである。
これらのアプローチは実際は有望な結果を示しているが、そのようなアプローチが有効である理由と時期に関する理論的理解は依然として限られている。
本研究は,人間の比較が従来の教師付き学習プロセスを強化する条件を解析するための理論的枠組みの開発に向けたものである。
具体的には,騒音環境と高次元モデルから生じる課題に対処するために,ノイズラベル付きデータと人間比較データの有効性について検討する。
確率的二分法アプローチにより,機械学習と人間のフィードバックを結びつける2段階の"Supervised Learning+Learning from Human Feedback"(SL+LHF)フレームワークを提案する。
この2段階のフレームワークは、まずSLプロシージャを介してノイズラベル付きデータから低次元表現を学習し、続いて人間比較を用いてモデルアライメントを改善する。
本研究では,アライメントフェーズの有効性を検討するために,LNCA比(label-noise-to-comparison-accuracy)という概念を導入する。
本稿では,「SL+LHF」フレームワークが純粋なSLアプローチより優れている条件を理論的に考察し,このLNCA比を利用して,サンプルの複雑さを軽減するために人体評価器を組み込むことの利点を明らかにする。
Amazon Mechanical Turk (MTurk) を用いたケーススタディにより, LNCA比が提案した条件を満たすことを確認した。
関連論文リスト
- CauSkelNet: Causal Representation Learning for Human Behaviour Analysis [6.880536510094897]
本研究では,人間の関節動態や複雑な動作をよりよく理解するために,因果推論に基づく表現学習手法を提案する。
我々のアプローチは、人間の動作分析を前進させ、より適応的なインテリジェントヘルスケアソリューションの道を開く。
論文 参考訳(メタデータ) (2024-09-23T21:38:49Z) - Using Self-supervised Learning Can Improve Model Fairness [10.028637666224093]
自己教師型学習(SSL)は,大規模モデルのデファクトトレーニングパラダイムとなっている。
本研究では,事前学習と微調整が公正性に及ぼす影響について検討する。
SSLの公平性評価フレームワークを導入し、データセット要件の定義、事前トレーニング、段階的凍結による微調整、人口統計学的に条件付けられた表現類似性の評価、ドメイン固有の評価プロセスの確立の5段階を含む。
論文 参考訳(メタデータ) (2024-06-04T14:38:30Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - Learnability of Competitive Threshold Models [11.005966612053262]
理論的観点から,競合しきい値モデルの学習可能性について検討する。
ニューラルネットワークによって競合しきい値モデルをシームレスにシミュレートする方法を実証する。
論文 参考訳(メタデータ) (2022-05-08T01:11:51Z) - A Unified Contrastive Energy-based Model for Understanding the
Generative Ability of Adversarial Training [64.71254710803368]
Adversarial Training (AT) は、ディープニューラルネットワークの堅牢性を高める効果的なアプローチである。
我々は、Contrastive Energy-based Models(CEM)と呼ばれる統合確率的枠組みを開発することにより、この現象をデミステレーションする。
本稿では,逆学習法とサンプリング法を開発するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:33:34Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Domain Knowledge Integration By Gradient Matching For Sample-Efficient
Reinforcement Learning [0.0]
本研究では,モデルフリー学習者を支援するために,ダイナミックスからの目標勾配情報を活用することで,サンプル効率を向上させる勾配マッチングアルゴリズムを提案する。
本稿では,モデルに基づく学習者からの勾配情報と,抽象的な低次元空間におけるモデル自由成分とをマッチングする手法を提案する。
論文 参考訳(メタデータ) (2020-05-28T05:02:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。