Fugu-MT 論文翻訳(概要): Exploiting Correlated Auxiliary Feedback in Parameterized Bandits

論文の概要: Exploiting Correlated Auxiliary Feedback in Parameterized Bandits

arxiv url: http://arxiv.org/abs/2311.02715v1
Date: Sun, 5 Nov 2023 17:27:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-07 16:17:49.036608
Title: Exploiting Correlated Auxiliary Feedback in Parameterized Bandits
Title（参考訳）: パラメータ化帯域における爆発関連補助フィードバック
Authors: Arun Verma, Zhongxiang Dai, Yao Shu, Bryan Kian Hsiang Low
Abstract要約: そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を収集するオンラインプラットフォームなど、多くの現実的なアプリケーションで容易に利用可能である。
参考スコア（独自算出の注目度）: 56.84649080789685
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We study a novel variant of the parameterized bandits problem in which the learner can observe additional auxiliary feedback that is correlated with the observed reward. The auxiliary feedback is readily available in many real-life applications, e.g., an online platform that wants to recommend the best-rated services to its users can observe the user's rating of service (rewards) and collect additional information like service delivery time (auxiliary feedback). In this paper, we first develop a method that exploits auxiliary feedback to build a reward estimator with tight confidence bounds, leading to a smaller regret. We then characterize the regret reduction in terms of the correlation coefficient between reward and its auxiliary feedback. Experimental results in different settings also verify the performance gain achieved by our proposed method.
Abstract（参考訳）: そこで本研究では,学習者が追加の補助的フィードバックを観察できるパラメータ化帯域問題の新たな変種について検討する。補助的なフィードバックは、ユーザのサービス評価(リワード)を観察し、サービス提供時間(補助的なフィードバック)などの追加情報を集めることができるように、ユーザに最高の評価サービスを推奨したいというオンラインプラットフォームなど、現実の多くのアプリケーションで容易に利用できる。本稿では,まず,信頼度が強い報酬推定器を構築するための補助的フィードバックを利用する手法を開発し,より少ない後悔をもたらす。次に,報酬と補助フィードバックの相関係数の観点から,後悔の軽減を特徴付ける。異なる設定における実験結果は,提案手法による性能向上も検証する。

関連論文リスト

MAVRL: Learning Reward Functions from Multiple Feedback Types with Amortized Variational Inference [22.19400649559091]
リワード学習は通常、1つのフィードバックタイプに依存するか、手動で重み付けされた損失用語を使って複数のフィードバックタイプを組み合わせる。本稿では,共有報酬エンコーダとフィードバック固有確率復号器を学習するスケーラブルな補正変分推論手法を提案する。共同推論された報酬は単一タイプのベースラインよりも優れ、フィードバックタイプ間の相補的な情報を活用し、環境の摂動に対してより堅牢なポリシーを得られることを示す。
論文参考訳（メタデータ） (2026-02-16T21:36:28Z)
Interactive Visualization Recommendation with Hier-SUCB [52.11209329270573]
本稿では,従来のインタラクションからユーザフィードバックを学習する対話型パーソナライズドビジュアライゼーションレコメンデーション(PVisRec)システムを提案する。よりインタラクティブで正確なレコメンデーションのために、PVisRec設定における文脈的半帯域であるHier-SUCBを提案する。
論文参考訳（メタデータ） (2025-02-05T17:14:45Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文参考訳（メタデータ） (2024-04-19T16:45:50Z)
Adversarial Batch Inverse Reinforcement Learning: Learn to Reward from Imperfect Demonstration for Interactive Recommendation [23.048841953423846]
我々は、強化学習の基礎となる報奨学習の問題に焦点をあてる。従来のアプローチでは、報酬を得るための追加の手順を導入するか、最適化の複雑さを増大させる。所望の特性を実現するために, バッチ逆強化学習パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-30T13:43:20Z)
Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文参考訳（メタデータ） (2023-05-21T14:35:32Z)
Breaking Feedback Loops in Recommender Systems with Causal Inference [99.22185950608838]
近年の研究では、フィードバックループが推奨品質を損なう可能性があり、ユーザの振る舞いを均質化している。本稿では、因果推論を用いてフィードバックループを確実に破壊するアルゴリズムCAFLを提案する。従来の補正手法と比較して,CAFLは推奨品質を向上することを示す。
論文参考訳（メタデータ） (2022-07-04T17:58:39Z)
Simulating Bandit Learning from User Feedback for Extractive Question Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文参考訳（メタデータ） (2022-03-18T17:47:58Z)
User and Item-aware Estimation of Review Helpfulness [4.640835690336653]
有用性決定因子としてのレビューの性質における逸脱の役割について検討する。本稿では,従来のものを拡張した新しい有用性推定モデルを提案する。そこで本モデルは,意思決定におけるユーザフィードバックの選択に有効なツールである。
論文参考訳（メタデータ） (2020-11-20T15:35:56Z)
Counterfactual Evaluation of Slate Recommendations with Sequential Reward Interactions [18.90946044396516]
音楽ストリーミング、ビデオストリーミング、ニュースレコメンデーション、eコマースサービスは、しばしばシーケンシャルな方法でコンテンツを扱う。したがって、適切なレコメンデーションのシーケンスの提供と評価は、これらのサービスにとって重要な問題である。そこで本研究では,アナルアンバイアスの少ない報酬の逐次的相互作用が可能な新しい反事実推定器を提案する。
論文参考訳（メタデータ） (2020-07-25T17:58:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。