論文の概要: Preference Construction: A Bayesian Interactive Preference Elicitation Framework Based on Monte Carlo Tree Search
- arxiv url: http://arxiv.org/abs/2503.15150v1
- Date: Wed, 19 Mar 2025 12:16:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:22:43.547335
- Title: Preference Construction: A Bayesian Interactive Preference Elicitation Framework Based on Monte Carlo Tree Search
- Title(参考訳): 選好構築:モンテカルロ木探索に基づくベイズ対話型選好引用フレームワーク
- Authors: Yan Wang, Jiapeng Liu, Milosz Kadziński, Xiuwu Liao,
- Abstract要約: 限定的な相互作用ラウンドにおいて、受講者の選好を効率的に捉えるための新しい選好学習フレームワークを提案する。
まず、参加者の嗜好モデルを予測するための変分ベイズ的アプローチを開発する。
第2に,累積不確実性低減を最大化する適応的問合せ政策を提案する。
第3に、このフレームワークを優先情報としてペア比較を行い、多重基準決定支援に適用する。
- 参考スコア(独自算出の注目度): 6.473114631834851
- License:
- Abstract: We present a novel preference learning framework to capture participant preferences efficiently within limited interaction rounds. It involves three main contributions. First, we develop a variational Bayesian approach to infer the participant's preference model by estimating posterior distributions and managing uncertainty from limited information. Second, we propose an adaptive questioning policy that maximizes cumulative uncertainty reduction, formulating questioning as a finite Markov decision process and using Monte Carlo Tree Search to prioritize promising question trajectories. By considering long-term effects and leveraging the efficiency of the Bayesian approach, the policy avoids shortsightedness. Third, we apply the framework to Multiple Criteria Decision Aiding, with pairwise comparison as the preference information and an additive value function as the preference model. We integrate the reparameterization trick to address high-variance issues, enhancing robustness and efficiency. Computational studies on real-world and synthetic datasets demonstrate the framework's practical usability, outperforming baselines in capturing preferences and achieving superior uncertainty reduction within limited interactions.
- Abstract(参考訳): 限定的な相互作用ラウンドにおいて、受講者の選好を効率的に捉えるための新しい選好学習フレームワークを提案する。
主な貢献は3つある。
まず、後続分布を推定し、限られた情報から不確実性を管理することにより、参加者の嗜好モデルを推定する変分ベイズ的手法を開発する。
第2に,累積不確実性低減を最大化し,有限マルコフ決定プロセスとして問合せを定式化し,モンテカルロ木探索を用いて有望な問合せトラジェクトリを優先する適応的問合せポリシーを提案する。
長期的な効果を考慮し、ベイズ的アプローチの効率を活用することで、この政策は短所性を避けている。
第3に、このフレームワークを複数基準決定支援に適用し、一対比較を優先情報とし、追加値関数を優先モデルとする。
我々は、高分散問題に対処し、堅牢性と効率性を高めるために、再パラメータ化のトリックを統合する。
実世界のデータセットと合成データセットに関する計算学的研究は、フレームワークの実用性、嗜好を捉えたベースラインよりも優れ、限られた相互作用の中で優れた不確実性低下を達成することを実証している。
関連論文リスト
- Beyond Predictions: A Participatory Framework for Multi-Stakeholder Decision-Making [3.3044728148521623]
本稿では,複数株主最適化問題として意思決定を再定義する新たな参加型フレームワークを提案する。
我々のフレームワークは、コンテキスト依存の報酬関数を通じて各アクターの好みをキャプチャする。
本稿では,複数の指標にまたがるユーザ定義の選好を利用して意思決定戦略をランク付けする合成スコアリング機構を提案する。
論文 参考訳(メタデータ) (2025-02-12T16:27:40Z) - Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - Self-Evolutionary Large Language Models through Uncertainty-Enhanced Preference Optimization [9.618391485742968]
反復的選好最適化は、最近、大規模言語モデル(LLM)のデファクトトレーニングパラダイムの1つになっている。
我々は、信頼性の高いフィードバックでLLMを自己進化させる不確実性のあるtextbfPreference textbfOptimizationフレームワークを提案する。
筆者らのフレームワークは,ノイズ問題を大幅に軽減し,反復的選好最適化の性能を向上させる。
論文 参考訳(メタデータ) (2024-09-17T14:05:58Z) - An incremental preference elicitation-based approach to learning potentially non-monotonic preferences in multi-criteria sorting [53.36437745983783]
まず最適化モデルを構築し,非単調な選好をモデル化する。
本稿では,情報量測定手法と質問選択戦略を考案し,各イテレーションにおいて最も情報に富む選択肢を特定する。
2つのインクリメンタルな選好に基づくアルゴリズムは、潜在的に単調な選好を学習するために開発された。
論文 参考訳(メタデータ) (2024-09-04T14:36:20Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Likelihood Ratio Confidence Sets for Sequential Decision Making [51.66638486226482]
確率に基づく推論の原理を再検討し、確率比を用いて妥当な信頼シーケンスを構築することを提案する。
本手法は, 精度の高い問題に特に適している。
提案手法は,オンライン凸最適化への接続に光を当てることにより,推定器の最適シーケンスを確実に選択する方法を示す。
論文 参考訳(メタデータ) (2023-11-08T00:10:21Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Tight Guarantees for Interactive Decision Making with the
Decision-Estimation Coefficient [51.37720227675476]
我々は、決定推定係数の新たな変種を導入し、それを用いて、3つの面における事前の作業を改善する新しい下界を導出する。
我々は同じ量でスケールした後悔について上界を与え、フォスター等における上界と下界の間のギャップの1つを除いて全てを閉じる。
この結果は、後悔のフレームワークとPACフレームワークの両方に適用され、我々が期待するいくつかの新しい分析とアルゴリズム設計技術を利用して、より広範な利用が期待できる。
論文 参考訳(メタデータ) (2023-01-19T18:24:08Z) - Value of Information Analysis via Active Learning and Knowledge Sharing
in Error-Controlled Adaptive Kriging [7.148732567427574]
本稿では,情報の価値(VoI)分析のための最初のサロゲートベースのフレームワークを提案する。
複数の関心事の可能性を更新するために、サロゲートモデル間の観測から平等な情報を共有することができる。
トラスブリッジの負荷試験を含む最適決定問題に対して,提案手法を適用した。
論文 参考訳(メタデータ) (2020-02-06T16:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。