論文の概要: Continual Learning for Instruction Following from Realtime Feedback
- arxiv url: http://arxiv.org/abs/2212.09710v2
- Date: Tue, 5 Dec 2023 21:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 19:21:49.065475
- Title: Continual Learning for Instruction Following from Realtime Feedback
- Title(参考訳): リアルタイムフィードバックによる指導の継続学習
- Authors: Alane Suhr, Yoav Artzi
- Abstract要約: 我々は,協調作業中のユーザからのフィードバックから,指示追従エージェントを継続的に訓練するためのアプローチを提案し,展開する。
対話中、人間のユーザは自然言語を使ってエージェントに指示し、指示に従ってエージェントを観察するときにリアルタイムのバイナリフィードバックを提供する。
我々は、ユーザのフィードバックを即時報酬に変換する、文脈的帯域幅学習アプローチを設計する。
我々は、何千もの人間とエージェントの相互作用を通じて評価し、時間とともに命令の実行精度が15.4%向上したことを示す。
- 参考スコア(独自算出の注目度): 23.078048024461264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose and deploy an approach to continually train an
instruction-following agent from feedback provided by users during
collaborative interactions. During interaction, human users instruct an agent
using natural language, and provide realtime binary feedback as they observe
the agent following their instructions. We design a contextual bandit learning
approach, converting user feedback to immediate reward. We evaluate through
thousands of human-agent interactions, demonstrating 15.4% absolute improvement
in instruction execution accuracy over time. We also show our approach is
robust to several design variations, and that the feedback signal is roughly
equivalent to the learning signal of supervised demonstration data.
- Abstract(参考訳): 我々は,協調作業中のユーザからのフィードバックから,指示追従エージェントを継続的に訓練するためのアプローチを提案し,展開する。
対話中、人間のユーザは自然言語を使ってエージェントに指示し、指示に従うエージェントを観察しながらリアルタイムでバイナリフィードバックを提供する。
ユーザのフィードバックを即時報酬に変換する,コンテキストのバンディット学習手法を設計した。
何千もの人間とエージェントの対話を通して評価を行い、時間とともに命令の実行精度が15.4%向上したことを示した。
また,提案手法は設計のバリエーションに頑健であり,フィードバック信号は教師ありデモンストレーションデータの学習信号と大まかに等価であることを示した。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Bootstrapping Adaptive Human-Machine Interfaces with Offline
Reinforcement Learning [82.91837418721182]
適応インターフェイスは、ユーザがシーケンシャルな意思決定タスクを実行するのに役立つ。
近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとの対話によってこのようなシステムが改善されている。
本稿では,生のコマンド信号をアクションにマッピングするインタフェースを訓練するための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-07T16:52:27Z) - Using Large Language Models to Provide Explanatory Feedback to Human
Tutors [3.2507682694499582]
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。
このワーク・イン・プログレス(英語版)は、効果的な、あるいは努力に基づく修正フィードバックのためのバイナリ分類においてかなりの精度を示す。
より具体的には、大言語モデルに精通した名前付きエンティティ認識を用いた説明的フィードバックを提供するための拡張されたアプローチについて紹介する。
論文 参考訳(メタデータ) (2023-06-27T14:19:12Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - Reinforcement Learning with Feedback from Multiple Humans with Diverse
Skills [1.433758865948252]
強化学習における堅牢性と探索を改善するための有望なアプローチは、人間のフィードバックを集めることである。
しかし、品質に関する十分なフィードバックを得るには高すぎる場合が多い。
私たちは、十分なフィードバックを得るために、異なるスキルレベルを持つ複数の専門家のグループに頼ることを目指しています。
論文 参考訳(メタデータ) (2021-11-16T16:19:19Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Assisted Perception: Optimizing Observations to Communicate State [112.40598205054994]
我々は、ロボット遠隔操作や視覚障害のあるナビゲーションといったタスクにおいて、ユーザが世界の状態を見積もるのを支援することを目的としている。
ユーザによって処理された場合、より正確な内部状態推定につながる新しい観測結果を合成する。
論文 参考訳(メタデータ) (2020-08-06T19:08:05Z) - Interactive Imitation Learning in State-Space [5.672132510411464]
状態空間における人間のフィードバックを用いてエージェントの動作を訓練し改善する対話型学習手法を提案する。
「状態空間におけるImitative Policies in State-space(TIPS)」という題名のメソッドは、状態の変化の観点からエージェントにガイダンスを提供することを可能にします。」
論文 参考訳(メタデータ) (2020-08-02T17:23:54Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。