論文の概要: Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback
- arxiv url: http://arxiv.org/abs/2511.09047v1
- Date: Thu, 13 Nov 2025 01:28:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.378176
- Title: Preference is More Than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback
- Title(参考訳): 評価は比較以上のもの: デュエルバンドと人的フィードバックを再考する
- Authors: Shengbo Wang, Hong Sun, Ke Li,
- Abstract要約: 対話的嗜好関係(Interactive preference elicitation、IPE)は、広範囲なパーソナライゼーションシステムにおいて、人間の嗜好を取得しながら、人間の努力を大幅に削減することを目的としている。
ダリングバンディット(DB)アルゴリズムは、ペア比較に基づいてIPE構築における最適な意思決定を可能にする。
フィードバック強化に基づく別の視点を導入し、モデルフリーDBフレームワークに重要な改善を導入する。
提案アルゴリズムは,大規模言語モデルに対する推薦,多目的最適化,応答最適化など,複数のIPEベンチマーク間での競合性能を実現する。
- 参考スコア(独自算出の注目度): 17.459431876117176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Interactive preference elicitation (IPE) aims to substantially reduce human effort while acquiring human preferences in wide personalization systems. Dueling bandit (DB) algorithms enable optimal decision-making in IPE building on pairwise comparisons. However, they remain inefficient when human feedback is sparse. Existing methods address sparsity by heavily relying on parametric reward models, whose rigid assumptions are vulnerable to misspecification. In contrast, we explore an alternative perspective based on feedback augmentation, and introduce critical improvements to the model-free DB framework. Specifically, we introduce augmented confidence bounds to integrate augmented human feedback under generalized concentration properties, and analyze the multi-factored performance trade-off via regret analysis. Our prototype algorithm achieves competitive performance across several IPE benchmarks, including recommendation, multi-objective optimization, and response optimization for large language models, demonstrating the potential of our approach for provably efficient IPE in broader applications.
- Abstract(参考訳): 対話的嗜好関係(Interactive preference elicitation、IPE)は、広範囲なパーソナライゼーションシステムにおいて、人間の嗜好を取得しながら、人間の努力を大幅に削減することを目的としている。
ダリングバンディット(DB)アルゴリズムは、ペア比較に基づいてIPE構築における最適な意思決定を可能にする。
しかしながら、人間のフィードバックが不足している場合、それらは非効率なままである。
既存の手法は、厳密な仮定が不特定性に弱いパラメトリック報酬モデルに強く依存することで、空間性に対処する。
対照的に、フィードバック強化に基づく代替的な視点を探求し、モデルフリーDBフレームワークに重要な改善を導入する。
具体的には、一般濃度特性下での強化された人間のフィードバックを統合するための強化された信頼境界を導入し、後悔解析により多要素性能トレードオフを解析する。
提案アルゴリズムは,大規模言語モデルに対する推薦,多目的最適化,応答最適化など,複数のIPEベンチマーク間での競合性能を実現する。
関連論文リスト
- Tree of Preferences for Diversified Recommendation [54.183647833064136]
データバイアスの観点から、多種多様な推薦について検討する。
本研究では,世界知識を活用したゼロショット推論における大規模言語モデル(LLM)の卓越した性能に着想を得て,新しいアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-24T04:13:17Z) - Expectation Confirmation Preference Optimization for Multi-Turn Conversational Recommendation Agent [24.134616865308985]
本稿では,新しいマルチターン優先最適化パラダイムECPOを提案する。
我々は,ECPOがCRAの相互作用能力を大幅に向上させ,既存のMTPO法よりも効率と有効性を両立させることを示す。
論文 参考訳(メタデータ) (2025-06-17T08:29:04Z) - Debate, Reflect, and Distill: Multi-Agent Feedback with Tree-Structured Preference Optimization for Efficient Language Model Enhancement [43.532921045069365]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクにおいて、新しい標準を設定し続けている。
静的な知識蒸留、人間からのフィードバックからのリソース集約的な強化学習、あるいは限られた自己回帰のような現在の技術は、実質的で持続的なパフォーマンス向上をもたらす。
本稿では、より小さなモデルとより強力な教師モデルの間でのマルチターン議論を編成し、実用的なフィードバックを導き出す新しいリフレクション・アンド・ディベート(D&R)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-04T03:52:20Z) - What Makes LLMs Effective Sequential Recommenders? A Study on Preference Intensity and Temporal Context [56.590259941275434]
RecPOは、シーケンシャルなレコメンデーションのための優先順位最適化フレームワークである。
これは、推定された嗜好階層と時間信号に基づいて適応的な報酬マージンを利用する。
タイムリーな満足感、コヒーレントな嗜好の維持、変化する状況下での識別の行使など、人間の意思決定の重要な特徴を反映している。
論文 参考訳(メタデータ) (2025-06-02T21:09:29Z) - Explainable Recommendation with Simulated Human Feedback [8.532115411106068]
提案する提案手法は,人為的なフィードバック駆動型最適化フレームワークである。
このフレームワークは、人中心で説明可能な要求を達成するために、高い労働コストを発生させることなく、動的にインタラクティブな最適化機構を使用する。
特に,大規模言語モデル(LLM)を人間のシミュレータとして利用して,学習プロセスの指針となる人間的なフィードバックを予測することを提案する。
論文 参考訳(メタデータ) (2025-04-19T02:46:10Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Active Learning for Direct Preference Optimization [59.84525302418018]
直接選好最適化(DPO)は、人間のフィードバックからの強化学習の一種である。
オンラインのフィードバック収集や,すでに収集したフィードバックの最も情報性の高いサブセットをオフラインで選択できる,DPOのためのアクティブラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-03T00:36:31Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。
本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。
提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文 参考訳(メタデータ) (2024-06-04T20:33:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。