論文の概要: Nearly Optimal Active Preference Learning and Its Application to LLM Alignment
- arxiv url: http://arxiv.org/abs/2602.01581v1
- Date: Mon, 02 Feb 2026 03:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.867761
- Title: Nearly Optimal Active Preference Learning and Its Application to LLM Alignment
- Title(参考訳): ほぼ最適能動選好学習とLLMアライメントへの応用
- Authors: Yao Zhao, Kwang-Sung Jun,
- Abstract要約: 大規模言語モデルの調整は、人間の好みラベルの高品質なデータセットに依存する。
既存の多くのアプローチでは、G-やD-最適化のような古典的な実験的な設計基準が採用されている。
本研究では,これら設計目標の適合性に疑問を呈する,選好学習に特有な単純な直観を同定する。
- 参考スコア(独自算出の注目度): 68.56793807995417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning large language models (LLMs) depends on high-quality datasets of human preference labels, which are costly to collect. Although active learning has been studied to improve sample efficiency relative to passive collection, many existing approaches adopt classical experimental design criteria such as G- or D-optimality. These objectives are not tailored to the structure of preference learning, leaving open the design of problem-specific algorithms. In this work, we identify a simple intuition specific to preference learning that calls into question the suitability of these existing design objectives. Motivated by this insight, we propose two active learning algorithms. The first provides the first instance-dependent label complexity guarantee for this setting, and the second is a simple, practical greedy method. We evaluate our algorithm on real-world preference datasets and observe improved sample efficiency compared to existing methods.
- Abstract(参考訳): 大型言語モデル(LLM)のアラインメントは、人間の好みラベルの高品質なデータセットに依存しており、収集にコストがかかる。
能動学習は受動的収集と比較してサンプル効率を向上させるために研究されているが、多くの既存手法ではG-やD-最適化といった古典的な設計基準を採用している。
これらの目的は、優先学習の構造に適合せず、問題固有のアルゴリズムの設計を開放する。
本研究では,これら設計目標の適合性に疑問を呈する,選好学習に特有な単純な直観を同定する。
この知見に感化されて、我々は2つのアクティブラーニングアルゴリズムを提案する。
1つは、この設定に対する最初のインスタンス依存ラベルの複雑さを保証するもので、もう1つは、単純で実用的なグリージーな方法である。
提案アルゴリズムは実世界の嗜好データセットに基づいて評価し,既存の手法と比較して,サンプル効率の向上を観察する。
関連論文リスト
- KITE: Kernelized and Information Theoretic Exemplars for In-Context Learning [30.471243464952625]
In-context Learning (ICL) は、大規模言語モデルを新しいデータに適応するための強力なパラダイムとして登場した。
本稿では,ICLにおけるサンプル選択の問題について,情報理論の原則的視点から検討する。
我々は,近似保証付きグリーディアルゴリズムを有効活用する,約部分モジュラーの原理的サロゲート目的を導出する。
論文 参考訳(メタデータ) (2025-09-19T06:50:03Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Experience in Engineering Complex Systems: Active Preference Learning
with Multiple Outcomes and Certainty Levels [1.5257326975704795]
ブラックボックス最適化とは、目的関数と/または制約集合が未知、到達不能、あるいは存在しない問題を指す。
この特定の情報を活用するために、いわゆるActive Preference Learningと呼ばれるアルゴリズムが開発された。
我々のアプローチは、さらなる情報を効果的に活用できるような方法でアルゴリズムを拡張することを目的としている。
論文 参考訳(メタデータ) (2023-02-27T15:55:37Z) - Unified Algorithms for RL with Decision-Estimation Coefficients: PAC, Reward-Free, Preference-Based Learning, and Beyond [28.118197762236953]
我々は,大規模な学習目標のための統一的なアルゴリズムフレームワークを開発する。
我々のフレームワークは、非回帰RL、PAC RL、報酬なし学習、モデル推定、嗜好に基づく学習など、多くの学習目標を処理する。
応用として、一般化されたDECを有界化するための自然な十分条件として「分解可能表現」を提案する。
論文 参考訳(メタデータ) (2022-09-23T17:47:24Z) - A Lagrangian Duality Approach to Active Learning [119.36233726867992]
トレーニングデータのサブセットのみをラベル付けするバッチアクティブな学習問題を考察する。
制約付き最適化を用いて学習問題を定式化し、各制約はラベル付きサンプルにモデルの性能を拘束する。
数値実験により,提案手法は最先端の能動学習法と同等かそれ以上に機能することを示した。
論文 参考訳(メタデータ) (2022-02-08T19:18:49Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Fase-AL -- Adaptation of Fast Adaptive Stacking of Ensembles for
Supporting Active Learning [0.0]
本研究は,Active Learning を用いて非ラベルのインスタンスで分類モデルを誘導する FASE-AL アルゴリズムを提案する。
このアルゴリズムは、正しく分類されたインスタンスの割合で有望な結果を得る。
論文 参考訳(メタデータ) (2020-01-30T17:25:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。