論文の概要: HR-Bandit: Human-AI Collaborated Linear Recourse Bandit
- arxiv url: http://arxiv.org/abs/2410.14640v1
- Date: Fri, 18 Oct 2024 17:41:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:24:41.247976
- Title: HR-Bandit: Human-AI Collaborated Linear Recourse Bandit
- Title(参考訳): HR-Bandit:人間とAIの協力によるリニアリコースバンド
- Authors: Junyu Cao, Ruijiang Gao, Esmaeil Keyvanshokooh,
- Abstract要約: 本稿では,探索と利用のバランスをとることで,行動選択と特徴修正の両方を最適化するRecourse Linear UCB(textsfRLinUCB$)アルゴリズムを提案する。
我々はこれをHuman-AI Linear Recourse Bandit(textsfHR-Bandit$)に拡張する。
- 参考スコア(独自算出の注目度): 6.03934346799427
- License:
- Abstract: Human doctors frequently recommend actionable recourses that allow patients to modify their conditions to access more effective treatments. Inspired by such healthcare scenarios, we propose the Recourse Linear UCB ($\textsf{RLinUCB}$) algorithm, which optimizes both action selection and feature modifications by balancing exploration and exploitation. We further extend this to the Human-AI Linear Recourse Bandit ($\textsf{HR-Bandit}$), which integrates human expertise to enhance performance. $\textsf{HR-Bandit}$ offers three key guarantees: (i) a warm-start guarantee for improved initial performance, (ii) a human-effort guarantee to minimize required human interactions, and (iii) a robustness guarantee that ensures sublinear regret even when human decisions are suboptimal. Empirical results, including a healthcare case study, validate its superior performance against existing benchmarks.
- Abstract(参考訳): 人間の医師は、患者がより効果的な治療にアクセスできるように、患者の状態を変えられるような行動可能なリコースを推奨することが多い。
このような医療シナリオにインスパイアされたRecourse Linear UCB($\textsf{RLinUCB}$)アルゴリズムを提案する。
さらに、パフォーマンスを高めるために人間の専門知識を統合するHuman-AI Linear Recourse Bandit(\textsf{HR-Bandit}$)にも拡張します。
$\textsf{HR-Bandit}$は3つの重要な保証を提供する。
(i)初期性能の向上のための温暖化開始保証
(二)必要な人的相互作用を最小限に抑えるための人的努力の保証、及び
三 人的決定が最適でない場合でも、サブリニア後悔を保証する堅牢性を保証すること。
医療ケーススタディを含む実証的な結果は、既存のベンチマークに対する優れたパフォーマンスを検証します。
関連論文リスト
- Bi-Factorial Preference Optimization: Balancing Safety-Helpfulness in Language Models [94.39278422567955]
人間の嗜好を微調整した大型言語モデル(LLM)は、その能力向上に成功している。
しかし、微調整中のLLMの安全性確保は依然として重要な懸念事項である。
本稿では,BFPO(Bi-Factorial Preference Optimization)と呼ばれる教師あり学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-27T17:31:21Z) - MEReQ: Max-Ent Residual-Q Inverse RL for Sample-Efficient Alignment from Intervention [81.56607128684723]
本稿では,人間の介入によるサンプル効率向上を目的としたMEReQ(Maximum-Entropy Residual-Q Inverse Reinforcement Learning)を紹介する。
MereQは、人間の専門家と以前の政策の根底にある報酬関数との相違を捉える残差報酬関数を推論する。
その後、Residual Q-Learning(RQL)を使用して、ポリシーをこの残留報酬関数を使用して人間の好みと整合させる。
論文 参考訳(メタデータ) (2024-06-24T01:51:09Z) - Robust Reinforcement Learning from Corrupted Human Feedback [86.17030012828003]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の嗜好データを調整するための原則化されたフレームワークを提供する。
我々はRLHFのロバストなアプローチ-$R3M$を提案し、これは、潜在的に破損した選好ラベルをスパースアウトリーとしてモデル化する。
大規模言語モデル(LLM)を用いたロボット制御と自然言語生成の実験により、R3M$は、好みデータに対する様々な摂動に対する報酬の堅牢性を向上することを示した。
論文 参考訳(メタデータ) (2024-06-21T18:06:30Z) - Improving Reinforcement Learning from Human Feedback Using Contrastive Rewards [26.40009657912622]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせるために使われる主流パラダイムである。
しかし、既存のRLHFは、様々な情報源からのノイズに対して脆弱で敏感な正確で情報的な報酬モデルに大きく依存している。
本研究では,報酬に対するペナルティ項を導入することで,報酬モデルの有効性を向上する。
論文 参考訳(メタデータ) (2024-03-12T14:51:57Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Safe RLHF: Safe Reinforcement Learning from Human Feedback [16.69413517494355]
本稿では,人的価値アライメントのための新しいアルゴリズムである,人的フィードバックからの安全強化学習(Safe RLHF)を提案する。
安全RLHFは、役に立つことと無害性に関する人間の嗜好を明示的に分離し、クラウドワーカーの緊張に対する混乱を効果的に回避する。
モデル性能を高めながら有害な応答を緩和する優れた能力を示す。
論文 参考訳(メタデータ) (2023-10-19T14:22:03Z) - Provably Efficient Iterated CVaR Reinforcement Learning with Function
Approximation and Human Feedback [57.6775169085215]
リスクに敏感な強化学習は、期待される報酬とリスクのバランスをとるポリシーを最適化することを目的としている。
本稿では,線形および一般関数近似の下で,CVaR(Iterated Conditional Value-at-Risk)を目標とする新しいフレームワークを提案する。
本稿では,この反復CVaR RLに対するサンプル効率の高いアルゴリズムを提案し,厳密な理論的解析を行う。
論文 参考訳(メタデータ) (2023-07-06T08:14:54Z) - PriorBand: Practical Hyperparameter Optimization in the Age of Deep
Learning [49.92394599459274]
我々は,Deep Learning(DL)パイプラインに適したHPOアルゴリズムであるPresideBandを提案する。
各種のDLベンチマークでその堅牢性を示し、情報的専門家のインプットと、専門家の信条の低さに対してその利得を示す。
論文 参考訳(メタデータ) (2023-06-21T16:26:14Z) - Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles [16.916111322004557]
ブラックボックスの客観的関数は、ランクのオラクルを通してのみ測定できる。
ゼロ階最適化アルゴリズムZO-RankSGDを導入する。
また,ZO-RankSGDは,数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-03-07T09:20:43Z) - An Efficient Approach for Optimizing the Cost-effective Individualized
Treatment Rule Using Conditional Random Forest [5.406112598028401]
我々は、NMB(net-monetary-benefit)という概念を用いて、健康上の利益と関連するコストのトレードオフを評価する。
NMBに基づく分類アルゴリズムを用いて最適なCE-ITRを同定する。
我々は、NIHが出資したSystolic Blood Pressure Intervention Trialにトップパフォーマンスのアルゴリズムを適用した。
論文 参考訳(メタデータ) (2022-04-23T01:36:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。