論文の概要: A Probabilistic Approach for Alignment with Human Comparisons
- arxiv url: http://arxiv.org/abs/2403.10771v1
- Date: Sat, 16 Mar 2024 02:19:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-03-19 21:54:53.887865
- Title: A Probabilistic Approach for Alignment with Human Comparisons
- Title(参考訳): 人間の比較によるアライメントの確率論的アプローチ
- Authors: Junyu Cao, Mohsen Bayati,
- Abstract要約: 本稿では,騒音データと高次元モデルから生じる制約に対処するために,人間の比較を効果的に活用することを検討する。
本稿では,機械学習と人間のフィードバックを結びつける2段階の"Supervised Fine Tuning+Human Comparison"(SFT+HC)フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.6656660956453635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A growing trend involves integrating human knowledge into learning frameworks, leveraging subtle human feedback to refine AI models. Despite these advances, no comprehensive theoretical framework describing the specific conditions under which human comparisons improve the traditional supervised fine-tuning process has been developed. To bridge this gap, this paper studies the effective use of human comparisons to address limitations arising from noisy data and high-dimensional models. We propose a two-stage "Supervised Fine Tuning+Human Comparison" (SFT+HC) framework connecting machine learning with human feedback through a probabilistic bisection approach. The two-stage framework first learns low-dimensional representations from noisy-labeled data via an SFT procedure, and then uses human comparisons to improve the model alignment. To examine the efficacy of the alignment phase, we introduce a novel concept termed the "label-noise-to-comparison-accuracy" (LNCA) ratio. This paper theoretically identifies the conditions under which the "SFT+HC" framework outperforms pure SFT approach, leveraging this ratio to highlight the advantage of incorporating human evaluators in reducing sample complexity. We validate that the proposed conditions for the LNCA ratio are met in a case study conducted via an Amazon Mechanical Turk experiment.
- Abstract(参考訳): 成長するトレンドは、人間の知識を学習フレームワークに統合し、微妙な人間のフィードバックを活用してAIモデルを洗練することである。
これらの進歩にもかかわらず、人間の比較が従来の微調整プロセスを改善する特定の条件を記述する包括的な理論的枠組みは開発されていない。
このギャップを埋めるために,ノイズデータと高次元モデルから生じる制約に対処するために,人間の比較を効果的に活用することを検討した。
確率的二分法を用いて機械学習と人間のフィードバックを結びつける2段階の「スーパービジョン・ファインチューニング+Human Comparison」(SFT+HC)フレームワークを提案する。
この2段階のフレームワークは、まずSFTプロシージャを介してノイズラベル付きデータから低次元の表現を学習し、続いて人間比較を用いてモデルアライメントを改善する。
本稿では,アライメントフェーズの有効性を検討するために,LNCA(label-noise-to-comparison-accuracy)という新しい概念を導入する。
本稿では,「SFT+HC」フレームワークが純粋なSFTアプローチより優れている条件を理論的に同定し,この比を利用して,サンプルの複雑さの低減にヒト評価器を組み込むことの利点を明らかにする。
LNCA比の条件がAmazon Mechanical Turk実験によって実施されたケーススタディで満たされていることを検証した。
関連論文リスト
- Contextual Online Uncertainty-Aware Preference Learning for Human Feedback [13.478503755314344]
RLHF(Reinforcement Learning from Human Feedback)は人工知能において重要なパラダイムとなっている。
最適モデルに基づくオンライン意思決定と統計的推測を同時に行うための新しい統計的枠組みを提案する。
本稿では,大規模マルチタスク言語理解データセット上での大規模言語モデルのランク付けのための人間の嗜好データ分析に,提案手法を適用した。
論文 参考訳(メタデータ) (2025-04-27T19:59:11Z) - CauSkelNet: Causal Representation Learning for Human Behaviour Analysis [6.880536510094897]
本研究では,人間の関節動態や複雑な動作をよりよく理解するために,因果推論に基づく表現学習手法を提案する。
我々のアプローチは、人間の動作分析を前進させ、より適応的なインテリジェントヘルスケアソリューションの道を開く。
論文 参考訳(メタデータ) (2024-09-23T21:38:49Z) - Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss [3.435381469869212]
本稿では,Sentence-BERT STSタスクのための革新的な回帰フレームワークを提案する。
これは2つの単純で効果的な損失関数、Translated ReLUとSmooth K2 Lossを提案する。
実験結果から,本手法は7つのSTSベンチマークにおいて有意な性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-06-08T02:52:43Z) - Using Self-supervised Learning Can Improve Model Fairness [10.028637666224093]
自己教師型学習(SSL)は,大規模モデルのデファクトトレーニングパラダイムとなっている。
本研究では,事前学習と微調整が公正性に及ぼす影響について検討する。
SSLの公平性評価フレームワークを導入し、データセット要件の定義、事前トレーニング、段階的凍結による微調整、人口統計学的に条件付けられた表現類似性の評価、ドメイン固有の評価プロセスの確立の5段階を含む。
論文 参考訳(メタデータ) (2024-06-04T14:38:30Z) - Getting More Juice Out of the SFT Data: Reward Learning from Human Demonstration Improves SFT for LLM Alignment [65.15914284008973]
我々は、報酬モデルと政策モデルを同時に構築するために、逆強化学習(IRL)技術を活用することを提案する。
提案アルゴリズムはIRL問題の定常解に収束することを示す。
その結果,アライメントプロセス全体を通じて報酬学習を活用することは有益であることが示唆された。
論文 参考訳(メタデータ) (2024-05-28T07:11:05Z) - A PAC-Bayesian Perspective on the Interpolating Information Criterion [54.548058449535155]
補間系の性能に影響を及ぼす要因を特徴付ける一般モデルのクラスに対して,PAC-Bayes境界がいかに得られるかを示す。
オーバーパラメータ化モデルに対するテスト誤差が、モデルとパラメータの初期化スキームの組み合わせによって課される暗黙の正規化の品質に依存するかの定量化を行う。
論文 参考訳(メタデータ) (2023-11-13T01:48:08Z) - Counterfactual Data Augmentation with Contrastive Learning [27.28511396131235]
本稿では,選択したサブセットに対して,結果に反する結果をもたらすモデルに依存しないデータ拡張手法を提案する。
我々は、比較学習を用いて表現空間と類似度尺度を学習し、学習された類似度尺度で同定された個人に近い学習空間において、同様の潜在的な結果が得られるようにした。
この性質は、代替治療群から近接した近縁者に対する対実的な結果の信頼性の高い計算を保証する。
論文 参考訳(メタデータ) (2023-11-07T00:36:51Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - GEC: A Unified Framework for Interactive Decision Making in MDP, POMDP,
and Beyond [101.5329678997916]
対話型意思決定の一般的な枠組みの下で, サンプル高能率強化学習(RL)について検討した。
本稿では,探索とエクスプロイトの基本的なトレードオフを特徴付ける,新しい複雑性尺度である一般化エルダー係数(GEC)を提案する。
低 GEC の RL 問題は非常にリッチなクラスであり、これは低ベルマン楕円体次元問題、双線型クラス、低証人ランク問題、PO-双線型クラス、一般化正規PSR を仮定する。
論文 参考訳(メタデータ) (2022-11-03T16:42:40Z) - MaxMatch: Semi-Supervised Learning with Worst-Case Consistency [149.03760479533855]
半教師付き学習(SSL)のための最悪ケース整合正則化手法を提案する。
本稿では,ラベル付きトレーニングデータとラベル付きトレーニングデータとを別々に比較した経験的損失項からなるSSLの一般化について述べる。
この境界によって動機づけられたSSLの目的は、元のラベルのないサンプルと、その複数の拡張版との最大の矛盾を最小限に抑えるものである。
論文 参考訳(メタデータ) (2022-09-26T12:04:49Z) - Learnability of Competitive Threshold Models [11.005966612053262]
理論的観点から,競合しきい値モデルの学習可能性について検討する。
ニューラルネットワークによって競合しきい値モデルをシームレスにシミュレートする方法を実証する。
論文 参考訳(メタデータ) (2022-05-08T01:11:51Z) - A Unified Contrastive Energy-based Model for Understanding the
Generative Ability of Adversarial Training [64.71254710803368]
Adversarial Training (AT) は、ディープニューラルネットワークの堅牢性を高める効果的なアプローチである。
我々は、Contrastive Energy-based Models(CEM)と呼ばれる統合確率的枠組みを開発することにより、この現象をデミステレーションする。
本稿では,逆学習法とサンプリング法を開発するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:33:34Z) - The Efficacy of Pessimism in Asynchronous Q-Learning [17.193902915070506]
ペシミズムの原理を非同期Q-ラーニングに組み込んだアルゴリズムフレームワークを開発した。
このフレームワークは、サンプル効率の向上と、ほぼ専門的なデータの存在下での適応性の向上につながります。
我々の結果は、マルコフ的非i.d.データの存在下での悲観主義原理の使用に対する最初の理論的支援を提供する。
論文 参考訳(メタデータ) (2022-03-14T17:59:01Z) - MINIMALIST: Mutual INformatIon Maximization for Amortized Likelihood
Inference from Sampled Trajectories [61.3299263929289]
シミュレーションベースの推論は、その可能性が実際に計算できない場合でもモデルのパラメータを学習することができる。
あるクラスのメソッドは、異なるパラメータでシミュレートされたデータを使用して、確率とエビデンス比の償却推定器を推定する。
モデルパラメータとシミュレーションデータ間の相互情報の観点から,本手法が定式化可能であることを示す。
論文 参考訳(メタデータ) (2021-06-03T12:59:16Z) - Scalable Personalised Item Ranking through Parametric Density Estimation [53.44830012414444]
暗黙のフィードバックから学ぶことは、一流問題の難しい性質のために困難です。
ほとんどの従来の方法は、一級問題に対処するためにペアワイズランキングアプローチとネガティブサンプラーを使用します。
本論文では,ポイントワイズと同等の収束速度を実現する学習対ランクアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-11T03:38:16Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Joint Stochastic Approximation and Its Application to Learning Discrete
Latent Variable Models [19.07718284287928]
推定モデルに対する信頼度勾配を得るのが困難であることや、間接的にターゲットのログを最適化することの欠点を優雅に解決できることが示される。
本稿では,対象の対数類似度を直接最大化し,後部モデルと推論モデルとの包摂的ばらつきを同時に最小化することを提案する。
結果の学習アルゴリズムは、ジョイントSA(JSA)と呼ばれる。
論文 参考訳(メタデータ) (2020-05-28T13:50:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。