Fugu-MT 論文翻訳(概要): Adaptive Querying for Reward Learning from Human Feedback

論文の概要: Adaptive Querying for Reward Learning from Human Feedback

arxiv url: http://arxiv.org/abs/2412.07990v1
Date: Wed, 11 Dec 2024 00:02:48 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-12 23:20:26.502178
Title: Adaptive Querying for Reward Learning from Human Feedback
Title（参考訳）: 人間のフィードバックからの逆学習のための適応的クエリ
Authors: Yashwanthi Anand, Sandhya Saisubramanian,
Abstract要約: 人間のフィードバックから学ぶことは、ロボットを訓練してユーザの好みに適応し、安全性を向上させるための一般的なアプローチである。副作用などの不安全行動に関連するペナルティ関数を,複数種類のフィードバックを用いて学習する方法を検討する。まず,クエリのクリティカルな状態を選択し,次に情報ゲインを用いてクエリのフィードバック形式を選択する。
参考スコア（独自算出の注目度）: 5.587293092389789
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning from human feedback is a popular approach to train robots to adapt to user preferences and improve safety. Existing approaches typically consider a single querying (interaction) format when seeking human feedback and do not leverage multiple modes of user interaction with a robot. We examine how to learn a penalty function associated with unsafe behaviors, such as side effects, using multiple forms of human feedback, by optimizing the query state and feedback format. Our framework for adaptive feedback selection enables querying for feedback in critical states in the most informative format, while accounting for the cost and probability of receiving feedback in a certain format. We employ an iterative, two-phase approach which first selects critical states for querying, and then uses information gain to select a feedback format for querying across the sampled critical states. Our evaluation in simulation demonstrates the sample efficiency of our approach.
Abstract（参考訳）: 人間のフィードバックから学ぶことは、ロボットを訓練してユーザの好みに適応し、安全性を向上させるための一般的なアプローチである。既存のアプローチでは、人間のフィードバックを求める際に単一のクエリ(インタラクション)フォーマットを考慮し、ロボットとの複数モードのユーザーインタラクションを利用できないのが一般的である。本研究では,クエリ状態とフィードバック形式を最適化することにより,副作用などの不安全行動に関連するペナルティ関数の学習方法を検討する。適応的なフィードバック選択のためのフレームワークは、あるフォーマットでフィードバックを受けるコストと確率を考慮しつつ、最も情報性の高いフォーマットで重要な状態のフィードバックを問合せすることを可能にする。提案手法では,まずクェリのためのクリティカルステートを選択し,次に情報ゲインを用いて,サンプリングしたクリティカルステートを問合せするためのフィードバックフォーマットを選択する。シミュレーションによる評価は,本手法のサンプル効率を実証する。

関連論文リスト

Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文参考訳（メタデータ） (2025-04-29T06:37:30Z)
Beyond Thumbs Up/Down: Untangling Challenges of Fine-Grained Feedback for Text-to-Image Generation [67.88747330066049]
きめ細かいフィードバックは、画像の品質と迅速な調整におけるニュアンスドの区別を捉えます。粗いフィードバックに対する優位性を示すことは、自動ではないことを示す。きめ細かいフィードバックを抽出し活用する上で重要な課題を特定します。
論文参考訳（メタデータ） (2024-06-24T17:19:34Z)
RLVF: Learning from Verbal Feedback without Overgeneralization [94.19501420241188]
本稿では,このような過度な一般化を伴わずに,言語フィードバックを取り入れることの課題について検討する。制約付き選好最適化(C3PO)を用いた新しい文脈的批評手法を開発した。提案手法は,他の文脈に対する既存行動を維持しながら,関連するシナリオに対して効果的な言語フィードバックを適用する。
論文参考訳（メタデータ） (2024-02-16T18:50:24Z)
UltraFeedback: Boosting Language Models with Scaled AI Feedback [99.4633351133207]
大規模で高品質で多様なAIフィードバックデータセットである textscUltraFeedback を提示する。我々の研究は、強力なオープンソースのチャット言語モデルを構築する上で、スケールしたAIフィードバックデータの有効性を検証する。
論文参考訳（メタデータ） (2023-10-02T17:40:01Z)
Learning from Negative User Feedback and Measuring Responsiveness for Sequential Recommenders [13.762960304406016]
シーケンシャルレコメンデータのトレーニング目標に、明示的かつ暗黙的なネガティブなユーザフィードバックを導入する。大規模産業レコメンデーションシステムを用いた実演実験により,本手法の有効性を実証する。
論文参考訳（メタデータ） (2023-08-23T17:16:07Z)
Simulating Bandit Learning from User Feedback for Extractive Question Answering [51.97943858898579]
教師付きデータを用いたフィードバックのシミュレーションにより,ユーザフィードバックからの学習を抽出的質問応答に適用する。当初は少数の例でトレーニングしたシステムが,モデル予測された回答に対するユーザからのフィードバックを劇的に改善できることが示される。
論文参考訳（メタデータ） (2022-03-18T17:47:58Z)
Adaptive Summaries: A Personalized Concept-based Summarization Approach by Learning from Users' Feedback [0.0]
本稿では,アダプティブ・サマリー(Adaptive Summaries)と呼ばれるインタラクティブな概念に基づく要約モデルを提案する。本システムは,反復ループでフィードバックを与えることで,システムと対話しながら,ユーザの提供した情報から徐々に学習する。生成したサマリーでユーザ好みのコンテンツを最大化することで、ユーザの好みに基づいた高品質なサマリー作成を支援する。
論文参考訳（メタデータ） (2020-12-24T18:27:50Z)
Dialogue Response Ranking Training with Large-Scale Human Feedback Data [52.12342165926226]
ソーシャルメディアのフィードバックデータを利用して、フィードバック予測のための大規模なトレーニングデータセットを構築します。我々は,1300万対の人間のフィードバックデータに基づくGPT-2モデルであるDialogRPTを訓練した。我々のランキングは、Redditのフィードバックを予測する上で、従来のダイアログの難易度ベースラインよりも優れています。
論文参考訳（メタデータ） (2020-09-15T10:50:05Z)
Large-scale Hybrid Approach for Predicting User Satisfaction with Conversational Agents [28.668681892786264]
ユーザの満足度を測定することは難しい課題であり、大規模な会話エージェントシステムの開発において重要な要素である。人間のアノテーションに基づくアプローチは簡単に制御できるが、スケールするのは難しい。新たなアプローチとして,会話エージェントシステムに埋め込まれたフィードバック誘導システムを通じて,ユーザの直接的なフィードバックを収集する手法がある。
論文参考訳（メタデータ） (2020-05-29T16:29:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。