Fugu-MT 論文翻訳(概要): Learning Reward Functions from Scale Feedback

論文の概要: Learning Reward Functions from Scale Feedback

arxiv url: http://arxiv.org/abs/2110.00284v1
Date: Fri, 1 Oct 2021 09:45:18 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-04 14:41:58.621240
Title: Learning Reward Functions from Scale Feedback
Title（参考訳）: スケールフィードバックによるリワード関数の学習
Authors: Nils Wilde, Erdem B{\i}y{\i}k, Dorsa Sadigh, Stephen L. Smith
Abstract要約: 一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。そこで我々は,ユーザがスライダを使ってよりニュアンスな情報を提供するスケールフィードバックを提案する。シミュレーションにおいてスライダフィードバックの利点を実証し,2つのユーザスタディにおけるアプローチの有効性を検証する。
参考スコア（独自算出の注目度）: 11.941038991430837
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Today's robots are increasingly interacting with people and need to efficiently learn inexperienced user's preferences. A common framework is to iteratively query the user about which of two presented robot trajectories they prefer. While this minimizes the users effort, a strict choice does not yield any information on how much one trajectory is preferred. We propose scale feedback, where the user utilizes a slider to give more nuanced information. We introduce a probabilistic model on how users would provide feedback and derive a learning framework for the robot. We demonstrate the performance benefit of slider feedback in simulations, and validate our approach in two user studies suggesting that scale feedback enables more effective learning in practice.
Abstract（参考訳）: 今日のロボットはますます人と対話し、経験の浅いユーザの好みを効率的に学ぶ必要がある。一般的なフレームワークは、ユーザーが好む2つのロボット軌跡について反復的に質問することである。これはユーザーの努力を最小限に抑えるが、厳格な選択は1つの軌道がどれだけ好まれるかに関する情報を与えない。本稿では,ユーザがスライダを使ってより詳細な情報を提供するスケールフィードバックを提案する。本稿では,ロボットにフィードバックを提供し,学習フレームワークを導出する方法に関する確率モデルを提案する。シミュレーションにおけるスライダフィードバックの性能効果を実証し、スケールフィードバックが実際により効果的な学習を可能にすることを示唆する2つのユーザスタディにおいて、我々のアプローチを検証する。

関連論文リスト

User Feedback in Human-LLM Dialogues: A Lens to Understand Users But Noisy as a Learning Signal [58.43749783815486]
本研究では,2つのユーザ-LMインタラクションデータセットにおける暗黙のユーザフィードバックについて検討する。ユーザフィードバックの内容は、人間設計の短い質問において、モデル性能を向上させることができる。また、ユーザフィードバックの有用性は、ユーザの最初のプロンプトの品質に大きく関係していることもわかりました。
論文参考訳（メタデータ） (2025-07-30T23:33:29Z)
Learning Pluralistic User Preferences through Reinforcement Learning Fine-tuned Summaries [13.187789731783095]
本稿では,各ユーザの好み,特徴,過去の会話をテキストベースで要約する新しいフレームワークを提案する。これらの要約は報酬モデルを定義し、各ユーザが評価する応答のタイプについてパーソナライズされた予測を可能にする。提案手法は,新規ユーザや多様な会話トピックに対して堅牢であることを示す。
論文参考訳（メタデータ） (2025-07-17T23:48:51Z)
Search-Based Interaction For Conversation Recommendation via Generative Reward Model Based Simulated User [117.82681846559909]
会話レコメンデーションシステム(CRS)は、マルチターンインタラクションを使用してユーザの好みを捉え、パーソナライズされたレコメンデーションを提供する。本稿では,CRSと自動インタラクションを行うための生成報酬モデルに基づくシミュレーションユーザGRSUを提案する。
論文参考訳（メタデータ） (2025-04-29T06:37:30Z)
Contrastive Learning from Exploratory Actions: Leveraging Natural Interactions for Preference Elicitation [6.033491390990401]
探索行動(CLEA)からの対照的な学習を提案する。 CLEAは、完全性、単純性、最小性、説明可能性という4つの指標よりもユーザの好みを引き出す際に、より優れた自己管理機能を備えている。
論文参考訳（メタデータ） (2025-01-02T17:26:01Z)
Improving User Experience in Preference-Based Optimization of Reward Functions for Assistive Robots [5.523009758632668]
CMA-ES-IGは、ユーザの嗜好学習プロセスの経験を優先することを示す。我々は,本アルゴリズムが,身体的,社会的なロボット作業にまたがる従来のアプローチよりも直感的であることを示す。
論文参考訳（メタデータ） (2024-11-17T21:52:58Z)
Vocal Sandbox: Continual Learning and Adaptation for Situated Human-Robot Collaboration [64.6107798750142]
Vocal Sandboxは、位置のある環境でシームレスな人間とロボットのコラボレーションを可能にするフレームワークである。我々は,ロボットの能力に対する理解と協調をリアルタイムで構築できる軽量で解釈可能な学習アルゴリズムを設計する。我々はVocal Sandboxを,コラボレーションギフトバッグアセンブリとLEGOストップモーションアニメーションの2つの設定で評価した。
論文参考訳（メタデータ） (2024-11-04T20:44:40Z)
Rethinking Annotator Simulation: Realistic Evaluation of Whole-Body PET Lesion Interactive Segmentation Methods [26.55942230051388]
実際のユーザスタディやシミュレートされたアノテータによる対話的セグメンテーションモデルの評価を行う。実際のユーザスタディは高価で大規模に制限されることが多いが、シミュレーションアノテータ(ロボットユーザとしても知られる)はモデルパフォーマンスを過大評価する傾向がある。本稿では,クリック変動やアノテータ間の不一致といった人間的要因を取り入れた,より現実的なロボットユーザを提案する。
論文参考訳（メタデータ） (2024-04-02T10:19:17Z)
PREDILECT: Preferences Delineated with Zero-Shot Language-based Reasoning in Reinforcement Learning [2.7387720378113554]
ロボット学習の新たな分野として,嗜好に基づく強化学習(RL)が出現している。我々は、人間が提供するテキストから大言語モデル(LLM)のゼロショット機能を利用する。シミュレーションシナリオとユーザスタディの両方において、フィードバックとその意味を分析することによって、作業の有効性を明らかにする。
論文参考訳（メタデータ） (2024-02-23T16:30:05Z)
Latent User Intent Modeling for Sequential Recommenders [92.66888409973495]
逐次リコメンデータモデルは、プラットフォーム上での氏のインタラクション履歴に基づいて、ユーザが次に対話する可能性のあるアイテムを予測することを学習する。しかし、ほとんどのシーケンシャルなレコメンデータは、ユーザの意図に対する高いレベルの理解を欠いている。したがって、インテントモデリングはユーザー理解と長期ユーザーエクスペリエンスの最適化に不可欠である。
論文参考訳（メタデータ） (2022-11-17T19:00:24Z)
RESUS: Warm-Up Cold Users via Meta-Learning Residual User Preferences in CTR Prediction [14.807495564177252]
コールドユーザーに対するCTR(Click-Through Rate)予測は、レコメンデーションシステムにおいて難しい課題である。本稿では,グローバルな嗜好知識の学習を,個々のユーザの残留嗜好の学習から切り離す,RESUSという新しい,効率的なアプローチを提案する。本手法は, コールドユーザに対するCTR予測精度の向上に有効であり, 各種最先端手法と比較して有効である。
論文参考訳（メタデータ） (2022-10-28T11:57:58Z)
Meta-Wrapper: Differentiable Wrapping Operator for User Interest Selection in CTR Prediction [97.99938802797377]
クリックスルー率(CTR)予測は、ユーザーが商品をクリックする確率を予測することを目的としており、リコメンデーションシステムにおいてますます重要になっている。近年,ユーザの行動からユーザの興味を自動的に抽出する深層学習モデルが大きな成功を収めている。そこで我々は,メタラッパー(Meta-Wrapper)と呼ばれるラッパー手法の枠組みに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2022-06-28T03:28:15Z)
PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文参考訳（メタデータ） (2021-06-09T14:10:50Z)
Generative Adversarial Reward Learning for Generalized Behavior Tendency Inference [71.11416263370823]
ユーザの行動嗜好モデルのための生成的逆強化学習を提案する。我々のモデルは,差別的アクター批判ネットワークとWasserstein GANに基づいて,ユーザの行動から報酬を自動的に学習することができる。
論文参考訳（メタデータ） (2021-05-03T13:14:25Z)
Empowering Active Learning to Jointly Optimize System and User Demands [70.66168547821019]
我々は,アクティブラーニングシステムとユーザを協調的に(効率的に学習)するための,新しいアクティブラーニング手法を提案する。本手法は,特定のユーザに対して,エクササイズの適切性を予測するために,学習を迅速かつ迅速に行う必要があるため,特に,この手法のメリットを生かした教育アプリケーションで研究する。複数の学習戦略とユーザタイプを実際のユーザからのデータで評価し,代替手法がエンドユーザに適さない多くのエクササイズをもたらす場合,共同アプローチが両方の目標を満足できることを確認した。
論文参考訳（メタデータ） (2020-05-09T16:02:52Z)
Active Preference Learning using Maximum Regret [10.317601896290467]
本研究では,自律ロボットの動作を直感的に特定するための枠組みとして,能動的嗜好学習について検討する。能動的嗜好学習では、ロボットがユーザの嗜好を学習する一連の選択肢から好む行動を選択する。
論文参考訳（メタデータ） (2020-05-08T14:31:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。