論文の概要: Active Query Synthesis for Preference Learning
- arxiv url: http://arxiv.org/abs/2605.26072v1
- Date: Mon, 25 May 2026 17:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.549435
- Title: Active Query Synthesis for Preference Learning
- Title(参考訳): 優先度学習のためのアクティブクエリ合成
- Authors: Namrata Nadagouda, Nauman Ahad, Maegan Tucker, Mark A. Davenport,
- Abstract要約: アクティブラーニングは、このコストを削減するが、標準的な手法は、プールベースの評価のために計算的に高価である。
本稿では,不明瞭な比較を明示的に考慮した新しい信頼度対応モデルを提案する。
提案するフレームワークの汎用性と,合成選好学習,制約付きテキスト要約データセット,およびシミュレーションされた移動ロボットの主観的連続空間制御ゲインチューニングにおける性能を実証する。
- 参考スコア(独自算出の注目度): 10.489427796755232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficient learning of user preferences is crucial for many modern decision making systems but typically requires costly labeled data. Active learning reduces this cost, yet standard methods are computationally expensive due to pool-based evaluation. Further, most methods assume all query feedback is equally reliable, ignoring that pairwise queries between nearly identical or entirely dissimilar items yield ambiguous, low-confidence responses. To address the issue of feedback reliability, we introduce a novel confidence aware response model that explicitly accounts for these ambiguous comparisons. To overcome the computational bottleneck of pool-based evaluation, we propose an active query synthesis framework, Info-Synth that generates optimal queries by maximizing a mutual information-based objective within a continuous space. Moreover, we propose two strategies, Pair M-dist and Pair Opt-dist, that extend Info-Synth to select effective queries even when restricted to finite query pools. We demonstrate our framework's versatility and performance across synthetic preference learning, constrained text summary datasets, and subjective, continuous-space controller gain tuning for a simulated mobile robot.
- Abstract(参考訳): ユーザの好みを効果的に学習することは、多くの現代的な意思決定システムにとって重要であるが、一般的には高価なラベル付きデータを必要とする。
アクティブラーニングは、このコストを削減するが、標準的な手法は、プールベースの評価のために計算的に高価である。
さらに、ほとんどのメソッドは、全てのクエリフィードバックが同様に信頼できると仮定し、ほぼ同一または全く異なる項目間のペアワイズクエリが曖昧で低信頼の応答をもたらすことを無視する。
フィードバックの信頼性の問題に対処するために、これらの曖昧な比較を明示的に考慮した新しい信頼度対応モデルを導入する。
プールベース評価の計算ボトルネックを克服するため,連続空間内の相互情報に基づく目的を最大化することにより最適なクエリを生成する能動的クエリ合成フレームワーク Info-Synth を提案する。
さらに,Pair M-dist と Pair Opt-dist の2つの戦略を提案する。
提案するフレームワークの汎用性と性能を,合成選好学習,制約付きテキスト要約データセット,およびシミュレーションされた移動ロボットに対する主観的連続空間制御ゲインチューニングで実証する。
関連論文リスト
- LLM Routing with Dueling Feedback [49.67815163970033]
ユーザの満足度,モデルの専門性,推論コストのバランスを保ちながら,クエリ毎に最適なモデルを選択するという課題について検討する。
絶対的なスコアではなく、ペアの選好フィードバックから学習することで、ルーティングをコンテキストデュエルの帯域として定式化する。
分類的重み付けを用いた対照的な微調整を用いて,オフラインデータからモデル埋め込みを導出する表現学習手法であるカテゴリーキャリブレーション・ファインタニング(CCFT)を導入する。
論文 参考訳(メタデータ) (2025-10-01T12:52:25Z) - Semantic Caching for Low-Cost LLM Serving: From Offline Learning to Online Adaptation [54.61034867177997]
キャッシング推論応答は、大きな言語モデルに他の前方を通さずに、それらを検索することができる。
従来の正確なキャッシュは、クエリ間のセマンティックな類似性を見落とし、不要な再計算をもたらす。
本稿では,未知のクエリおよびコスト分布下でのセマンティックキャッシュ消去のための,原則的,学習ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-11T06:53:27Z) - Embed Progressive Implicit Preference in Unified Space for Deep Collaborative Filtering [13.24227546548424]
GNOLR(Generalized Neural Ordinal Logistic Regression)は、ユーザエンゲージメントの構造的進行を捉えるために提案されている。
GNOLRは予測精度を高め、ユーザのエンゲージメントの進行を捉え、検索プロセスを単純化する。
10の実世界のデータセットでの実験では、GNOLRは効率と適応性において最先端の手法を大幅に上回っている。
論文 参考訳(メタデータ) (2025-05-27T08:43:35Z) - Model-Free Counterfactual Subset Selection at Scale [11.646993755965006]
ストリーミングの説明は、データセット全体の永続的なストレージを必要とせずに、適応的でリアルタイムな洞察を提供する。
我々のアルゴリズムはストリーミング設定において効率よく動作し、アイテムごとの更新複雑性を$O(log k)$に維持する。
実世界のデータセットと合成データセットの両方に対する実証的な評価は、ベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2025-02-12T11:48:15Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。