論文の概要: Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback
- arxiv url: http://arxiv.org/abs/2511.09047v1
- Date: Thu, 13 Nov 2025 01:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.378176
- Title: Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback
- Title(参考訳): 評価は比較以上のもの: デュエルバンドと人的フィードバックを再考する
- Authors: Shengbo Wang, Hong Sun, Ke Li,
- Abstract要約: 対話的嗜好関係(Interactive preference elicitation、IPE)は、広範囲なパーソナライゼーションシステムにおいて、人間の嗜好を取得しながら、人間の努力を大幅に削減することを目的としている。
ダリングバンディット(DB)アルゴリズムは、ペア比較に基づいてIPE構築における最適な意思決定を可能にする。
フィードバック強化に基づく別の視点を導入し、モデルフリーDBフレームワークに重要な改善を導入する。
提案アルゴリズムは,大規模言語モデルに対する推薦,多目的最適化,応答最適化など,複数のIPEベンチマーク間での競合性能を実現する。
- 参考スコア(独自算出の注目度): 17.459431876117176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive preference elicitation (IPE) aims to substantially reduce human effort while acquiring human preferences in wide personalization systems. Dueling bandit (DB) algorithms enable optimal decision-making in IPE building on pairwise comparisons. However, they remain inefficient when human feedback is sparse. Existing methods address sparsity by heavily relying on parametric reward models, whose rigid assumptions are vulnerable to misspecification. In contrast, we explore an alternative perspective based on feedback augmentation, and introduce critical improvements to the model-free DB framework. Specifically, we introduce augmented confidence bounds to integrate augmented human feedback under generalized concentration properties, and analyze the multi-factored performance trade-off via regret analysis. Our prototype algorithm achieves competitive performance across several IPE benchmarks, including recommendation, multi-objective optimization, and response optimization for large language models, demonstrating the potential of our approach for provably efficient IPE in broader applications.
- Abstract(参考訳): 対話的嗜好関係(Interactive preference elicitation、IPE)は、広範囲なパーソナライゼーションシステムにおいて、人間の嗜好を取得しながら、人間の努力を大幅に削減することを目的としている。
ダリングバンディット(DB)アルゴリズムは、ペア比較に基づいてIPE構築における最適な意思決定を可能にする。
しかしながら、人間のフィードバックが不足している場合、それらは非効率なままである。
既存の手法は、厳密な仮定が不特定性に弱いパラメトリック報酬モデルに強く依存することで、空間性に対処する。
対照的に、フィードバック強化に基づく代替的な視点を探求し、モデルフリーDBフレームワークに重要な改善を導入する。
具体的には、一般濃度特性下での強化された人間のフィードバックを統合するための強化された信頼境界を導入し、後悔解析により多要素性能トレードオフを解析する。
提案アルゴリズムは,大規模言語モデルに対する推薦,多目的最適化,応答最適化など,複数のIPEベンチマーク間での競合性能を実現する。
関連論文リスト
- What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Explainable Recommendation with Simulated Human Feedback [8.532115411106068]
提案する提案手法は,人為的なフィードバック駆動型最適化フレームワークである。
このフレームワークは、人中心で説明可能な要求を達成するために、高い労働コストを発生させることなく、動的にインタラクティブな最適化機構を使用する。
特に,大規模言語モデル(LLM)を人間のシミュレータとして利用して,学習プロセスの指針となる人間的なフィードバックを予測することを提案する。
論文 参考訳(メタデータ) (2025-04-19T02:46:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。