論文の概要: Offline Clustering of Preference Learning with Active-data Augmentation
- arxiv url: http://arxiv.org/abs/2510.26301v2
- Date: Fri, 31 Oct 2025 08:58:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 19:57:09.727422
- Title: Offline Clustering of Preference Learning with Active-data Augmentation
- Title(参考訳): アクティブデータ拡張による選好学習のオフラインクラスタリング
- Authors: Jingyuan Liu, Fatemeh Ghaffari, Xuchuang Wang, Xutong Liu, Mohammad Hajiesmaili, Carlee Joe-Wong,
- Abstract要約: 現実世界の嗜好学習は、しばしば異なる嗜好を持つユーザーを巻き込む。
この設定では、データを効果的に集約するユーザ間の類似性を識別し、不均衡なオフラインデータを扱うという、2つの主要な課題が提示される。
学習者がオフラインデータにのみ依存する、純粋なオフライン設定のためのオフC$2$PLを提案する。
我々は,本フレームワークを,学習者がテストユーザに対して限られた数のアクティブデータを選択することができるアクティブデータ拡張設定に拡張する。
- 参考スコア(独自算出の注目度): 32.93090135413931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Preference learning from pairwise feedback is a widely adopted framework in applications such as reinforcement learning with human feedback and recommendations. In many practical settings, however, user interactions are limited or costly, making offline preference learning necessary. Moreover, real-world preference learning often involves users with different preferences. For example, annotators from different backgrounds may rank the same responses differently. This setting presents two central challenges: (1) identifying similarity across users to effectively aggregate data, especially under scenarios where offline data is imbalanced across dimensions, and (2) handling the imbalanced offline data where some preference dimensions are underrepresented. To address these challenges, we study the Offline Clustering of Preference Learning problem, where the learner has access to fixed datasets from multiple users with potentially different preferences and aims to maximize utility for a test user. To tackle the first challenge, we first propose Off-C$^2$PL for the pure offline setting, where the learner relies solely on offline data. Our theoretical analysis provides a suboptimality bound that explicitly captures the tradeoff between sample noise and bias. To address the second challenge of inbalanced data, we extend our framework to the setting with active-data augmentation where the learner is allowed to select a limited number of additional active-data for the test user based on the cluster structure learned by Off-C$^2$PL. In this setting, our second algorithm, A$^2$-Off-C$^2$PL, actively selects samples that target the least-informative dimensions of the test user's preference. We prove that these actively collected samples contribute more effectively than offline ones. Finally, we validate our theoretical results through simulations on synthetic and real-world datasets.
- Abstract(参考訳): ペアワイズフィードバックからの選好学習は、人間のフィードバックとレコメンデーションによる強化学習のようなアプリケーションで広く採用されているフレームワークである。
しかし、多くの実践的な設定では、ユーザインタラクションは制限またはコストがかかるため、オフラインで好みの学習が必要になります。
さらに、現実世界の嗜好学習は、しばしば異なる嗜好を持つユーザーを巻き込む。
例えば、異なるバックグラウンドのアノテータは同じレスポンスを異なるランク付けすることができる。
この設定は,(1) ユーザ間での類似性を識別してデータを効果的に集約する,(2) オフラインデータを次元間で不均衡にする場合と,(2) 好みの次元が不足している不均衡なオフラインデータを扱う,という2つの中心的な課題を示す。
これらの課題に対処するために,学習者が複数のユーザから,潜在的に異なる選好を持つ固定データセットにアクセス可能なオフラインクラスタリング・オブ・プライオリエンス・ラーニング(Offline Clustering of Preference Learning)問題について検討し,テストユーザの有用性を最大化することを目的とした。
最初の課題に取り組むために、我々はまず、学習者がオフラインデータのみに依存する純粋なオフライン設定に対してoff-C$^2$PLを提案する。
我々の理論的分析は、サンプルノイズとバイアスのトレードオフを明示的に捉えた準最適境界を提供する。
ここでは,OF-C$^2$PLで学習したクラスタ構造に基づいて,学習者がテストユーザに対して限られた数のアクティブデータを選択することができる。
この設定において、第2のアルゴリズムであるA$^2$-Off-C$^2$PLは、テストユーザの好みの最小形次元をターゲットとしたサンプルを積極的に選択する。
アクティブに収集されたサンプルはオフラインのものよりも効果的に寄与することが証明された。
最後に,合成および実世界のデータセットのシミュレーションにより理論的結果を検証する。
関連論文リスト
- Offline Clustering of Linear Bandits: The Power of Clusters under Limited Data [60.91600085523719]
我々は、オフラインデータセットを用いてクラスタ特性を学習し、意思決定を改善する方法を研究する、帯域幅(Off-ClusBand)問題のオフラインクラスタリングについて検討する。
提案するアルゴリズムは2つある: Off-C2LUB は、限られたオフラインユーザデータの下で既存の手法を解析的かつ実験的に上回る性能を示し、Off-CLUB は、データがスパースであるときにバイアスが発生するが、データが十分であれば、その下限にほぼ一致する。
論文 参考訳(メタデータ) (2025-05-25T08:43:40Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Sample Efficient Preference Alignment in LLMs via Active Exploration [63.84454768573154]
良い政策を最も効率的に特定するために、人間のフィードバックを得るコンテキストをしばしば選択できるという事実を活用します。
本稿では,データを効率的に選択する能動的探索アルゴリズムを提案する。
提案手法は,複数の言語モデルと4つの実世界のデータセットに対する人間の嗜好の限られたサンプルを用いて,ベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-12-01T00:54:02Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z) - Semi-supervised Collaborative Filtering by Text-enhanced Domain
Adaptation [32.93934837792708]
半教師付き学習課題として、疎い暗黙のフィードバックを推奨する問題を考察する。
もっとも難しいケースにフォーカスします -- ユーザや項目の重複はありません。
我々は、潜在空間を整列させるためにアンカーポイントとして、ドメイン不変のテキスト特徴を採用する。
論文 参考訳(メタデータ) (2020-06-28T05:28:05Z) - Improving Multi-Turn Response Selection Models with Complementary
Last-Utterance Selection by Instance Weighting [84.9716460244444]
我々は、データリソース自体の根底にある相関を利用して、異なる種類の監視信号を導出することを検討する。
2つの公開データセットで広範な実験を行い、両方のデータセットで大幅に改善した。
論文 参考訳(メタデータ) (2020-02-18T06:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。