論文の概要: Contextual bandits with entropy-based human feedback
- arxiv url: http://arxiv.org/abs/2502.08759v1
- Date: Wed, 12 Feb 2025 20:03:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:48:46.121756
- Title: Contextual bandits with entropy-based human feedback
- Title(参考訳): エントロピーに基づく人間のフィードバックによる文脈的帯域幅
- Authors: Raihan Seraj, Lili Meng, Tristan Sylvain,
- Abstract要約: 本研究では,エントロピーに基づく文脈的盗聴のためのフィードバック・フレームワークを提案する。
提案手法は,人間からのフィードバックを最小限に抑えながら,大幅な性能向上を実現する。
この研究は、人間の指導を機械学習システムに組み込むことの堅牢性と有効性を強調している。
- 参考スコア(独自算出の注目度): 8.94067320035758
- License:
- Abstract: In recent years, preference-based human feedback mechanisms have become essential for enhancing model performance across diverse applications, including conversational AI systems such as ChatGPT. However, existing approaches often neglect critical aspects, such as model uncertainty and the variability in feedback quality. To address these challenges, we introduce an entropy-based human feedback framework for contextual bandits, which dynamically balances exploration and exploitation by soliciting expert feedback only when model entropy exceeds a predefined threshold. Our method is model-agnostic and can be seamlessly integrated with any contextual bandit agent employing stochastic policies. Through comprehensive experiments, we show that our approach achieves significant performance improvements while requiring minimal human feedback, even under conditions of suboptimal feedback quality. This work not only presents a novel strategy for feedback solicitation but also highlights the robustness and efficacy of incorporating human guidance into machine learning systems. Our code is publicly available: https://github.com/BorealisAI/CBHF
- Abstract(参考訳): 近年,ChatGPTなどの対話型AIシステムなど,さまざまなアプリケーションを対象としたモデルパフォーマンス向上に,嗜好に基づくヒューマンフィードバック機構が不可欠になっている。
しかし、既存のアプローチは、モデルの不確実性やフィードバック品質の変動など、重要な側面を無視することが多い。
これらの課題に対処するために,モデルエントロピーが予め定義されたしきい値を超えた場合にのみ専門家のフィードバックを求めることによって,探索と搾取を動的にバランスさせる,エントロピーに基づくコンテキストバンディットのためのヒューマンフィードバックフレームワークを導入する。
提案手法はモデルに依存しない手法であり,確率的ポリシーを用いた任意の文脈的バンディットエージェントとシームレスに統合できる。
包括的実験により, 最適なフィードバック品質の条件下であっても, 人間のフィードバックを最小限に抑えながら, 大幅な性能向上が達成できることが示唆された。
この研究は、フィードバック・ソリケーションのための新しい戦略を提示するだけでなく、人間の指導を機械学習システムに組み込むことの堅牢性と有効性を強調している。
私たちのコードは、https://github.com/BorealisAI/CBHFで公開されています。
関連論文リスト
- A Closer Look at System Prompt Robustness [2.5525497052179995]
開発者は、重要なコンテキスト、出力フォーマット、パーソナリティ、ガードレール、コンテンツポリシー、安全対策を指定するためのシステムプロンプトに依存する。
実際には、モデルは関連するガードレールを考慮することを忘れたり、システムとユーザ間の矛盾する要求を解決するのに失敗することが多い。
OpenAIのGPTストアとHuggingFaceのHuggingChatから収集されたプロンプトに基づいて、現実的な新しい評価と微調整データセットを作成します。
論文 参考訳(メタデータ) (2025-02-15T18:10:45Z) - Low-Rank Contextual Reinforcement Learning from Heterogeneous Human Feedback [12.373566593905792]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の嗜好を整合させる基盤となっている。
我々は、文脈情報を統合した低ランク文脈RLHFフレームワークを提案し、異種フィードバックをより良くモデル化する。
提案手法は,ユーザコンテキストと問合せ-問合せ-問合せ-問合せ-問合せ-問合せ-問合せ/問合せ-問合せ-問合せ-問合せ-問合せ間の相互作用の,本質的に低ランクな構造を利用した文脈選好モデルに基づく。
論文 参考訳(メタデータ) (2024-12-27T04:02:46Z) - Navigating Noisy Feedback: Enhancing Reinforcement Learning with Error-Prone Language Models [8.025808955214957]
本稿では,大規模言語モデルフィードバックによる強化学習の利点と限界について考察する。
本稿では,フィードバックを潜在的形状関数として提案する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-10-22T19:52:08Z) - Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural
Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。
まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。
第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。
第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文 参考訳(メタデータ) (2023-05-01T17:36:06Z) - Learning New Skills after Deployment: Improving open-domain
internet-driven dialogue with human feedback [22.92577324751342]
学習フレームワークにおけるインターネットによる会話能力の向上について検討する。
デプロイデータを収集し、さまざまな種類のフィードバックを収集します。
最近導入されたDirectorモデルは、他の既存のアプローチよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-08-05T16:41:46Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。