論文の概要: Adaptive Querying for Reward Learning from Human Feedback
- arxiv url: http://arxiv.org/abs/2412.07990v1
- Date: Wed, 11 Dec 2024 00:02:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:03:18.020652
- Title: Adaptive Querying for Reward Learning from Human Feedback
- Title(参考訳): 人間のフィードバックからの逆学習のための適応的クエリ
- Authors: Yashwanthi Anand, Sandhya Saisubramanian,
- Abstract要約: 人間のフィードバックから学ぶことは、ロボットを訓練してユーザの好みに適応し、安全性を向上させるための一般的なアプローチである。
副作用などの不安全行動に関連するペナルティ関数を,複数種類のフィードバックを用いて学習する方法を検討する。
まず,クエリのクリティカルな状態を選択し,次に情報ゲインを用いてクエリのフィードバック形式を選択する。
- 参考スコア(独自算出の注目度): 5.587293092389789
- License:
- Abstract: Learning from human feedback is a popular approach to train robots to adapt to user preferences and improve safety. Existing approaches typically consider a single querying (interaction) format when seeking human feedback and do not leverage multiple modes of user interaction with a robot. We examine how to learn a penalty function associated with unsafe behaviors, such as side effects, using multiple forms of human feedback, by optimizing the query state and feedback format. Our framework for adaptive feedback selection enables querying for feedback in critical states in the most informative format, while accounting for the cost and probability of receiving feedback in a certain format. We employ an iterative, two-phase approach which first selects critical states for querying, and then uses information gain to select a feedback format for querying across the sampled critical states. Our evaluation in simulation demonstrates the sample efficiency of our approach.
- Abstract(参考訳): 人間のフィードバックから学ぶことは、ロボットを訓練してユーザの好みに適応し、安全性を向上させるための一般的なアプローチである。
既存のアプローチでは、人間のフィードバックを求める際に単一のクエリ(インタラクション)フォーマットを考慮し、ロボットとの複数モードのユーザーインタラクションを利用できないのが一般的である。
本研究では,クエリ状態とフィードバック形式を最適化することにより,副作用などの不安全行動に関連するペナルティ関数の学習方法を検討する。
適応的なフィードバック選択のためのフレームワークは、あるフォーマットでフィードバックを受けるコストと確率を考慮しつつ、最も情報性の高いフォーマットで重要な状態のフィードバックを問合せすることを可能にする。
提案手法では,まずクェリのためのクリティカルステートを選択し,次に情報ゲインを用いて,サンプリングしたクリティカルステートを問合せするためのフィードバックフォーマットを選択する。
シミュレーションによる評価は,本手法のサンプル効率を実証する。
関連論文リスト
- Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。
粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。
きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文 参考訳(メタデータ) (2024-06-24T17:19:34Z) - RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。
制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。
提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文 参考訳(メタデータ) (2024-02-16T18:50:24Z) - UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。
我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文 参考訳(メタデータ) (2023-10-02T17:40:01Z) - Learning from Negative User Feedback and Measuring Responsiveness for
Sequential Recommenders [13.762960304406016]
シーケンシャルレコメンデータのトレーニング目標に、明示的かつ暗黙的なネガティブなユーザフィードバックを導入する。
大規模産業レコメンデーションシステムを用いた実演実験により,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-08-23T17:16:07Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Simulating Bandit Learning from User Feedback for Extractive Question
Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。
当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文 参考訳(メタデータ) (2022-03-18T17:47:58Z) - Adaptive Summaries: A Personalized Concept-based Summarization Approach
by Learning from Users' Feedback [0.0]
本稿では,アダプティブ・サマリー(Adaptive Summaries)と呼ばれるインタラクティブな概念に基づく要約モデルを提案する。
本システムは,反復ループでフィードバックを与えることで,システムと対話しながら,ユーザの提供した情報から徐々に学習する。
生成したサマリーでユーザ好みのコンテンツを最大化することで、ユーザの好みに基づいた高品質なサマリー作成を支援する。
論文 参考訳(メタデータ) (2020-12-24T18:27:50Z) - Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。
我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。
我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文 参考訳(メタデータ) (2020-09-15T10:50:05Z) - Large-scale Hybrid Approach for Predicting User Satisfaction with
Conversational Agents [28.668681892786264]
ユーザの満足度を測定することは難しい課題であり、大規模な会話エージェントシステムの開発において重要な要素である。
人間のアノテーションに基づくアプローチは簡単に制御できるが、スケールするのは難しい。
新たなアプローチとして,会話エージェントシステムに埋め込まれたフィードバック誘導システムを通じて,ユーザの直接的なフィードバックを収集する手法がある。
論文 参考訳(メタデータ) (2020-05-29T16:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。