論文の概要: Continual Learning for Instruction Following from Realtime Feedback
- arxiv url: http://arxiv.org/abs/2212.09710v1
- Date: Mon, 19 Dec 2022 18:39:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 14:24:53.176666
- Title: Continual Learning for Instruction Following from Realtime Feedback
- Title(参考訳): リアルタイムフィードバックによる指導の継続学習
- Authors: Alane Suhr, Yoav Artzi
- Abstract要約: 本研究では,協調作業中のユーザからのフィードバックを通じて,指示追従エージェントを継続的に訓練する課題について検討する。
対話中、人間のユーザは自然言語を使ってエージェントに指示し、エージェントの命令実行を観察するときにリアルタイムのバイナリフィードバックを提供する。
我々は学習を文脈的包帯問題とみなし、ユーザのフィードバックを即時報酬に変換する。
- 参考スコア(独自算出の注目度): 24.31971516926401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the problem of continually training an instruction-following agent
through feedback provided by users during collaborative interactions. During
interaction, human users instruct an agent using natural language, and provide
realtime binary feedback as they observe the agent's instruction execution. We
cast learning as a contextual bandit problem, converting the user feedback to
immediate reward. We evaluate through multiple rounds of human-agent
interactions, demonstrating 15.4% absolute improvement in instruction execution
over time. We also show our approach is robust to several design variations,
and that the feedback signal is roughly equivalent to the learning signal of
supervised demonstration data.
- Abstract(参考訳): 本研究では,協調作業中のユーザからのフィードバックを通じて,指示追従エージェントを継続的に訓練する課題について検討する。
対話中、人間のユーザは自然言語を使ってエージェントに指示し、エージェントの命令実行を観察するときにリアルタイムのバイナリフィードバックを提供する。
我々は学習を文脈的包帯問題とみなし、ユーザのフィードバックを即時報酬に変換する。
我々は,複数ラウンドの人間とエージェントのインタラクションを通じて評価を行い,時間とともに命令の実行が15.4%改善したことを示す。
また,提案手法は設計のバリエーションに頑健であり,フィードバック信号は教師ありデモンストレーションデータの学習信号と大まかに等価であることを示した。
関連論文リスト
- Rethinking the Evaluation of Dialogue Systems: Effects of User Feedback on Crowdworkers and LLMs [57.16442740983528]
アドホック検索では、評価は暗黙のフィードバックを含むユーザーの行動に大きく依存する。
アノテータの会話知覚におけるターン評価におけるユーザフィードバックの役割はほとんど研究されていない。
本稿では,タスク指向対話システム(TDS)の評価が,ターンのフォローアップ発話を通じて提供されるユーザフィードバック,明示的あるいは暗黙的な評価にどのように影響するかに注目した。
論文 参考訳(メタデータ) (2024-04-19T16:45:50Z) - Bootstrapping Adaptive Human-Machine Interfaces with Offline
Reinforcement Learning [82.91837418721182]
適応インターフェイスは、ユーザがシーケンシャルな意思決定タスクを実行するのに役立つ。
近年のヒューマン・イン・ザ・ループ・機械学習の進歩により、ユーザとの対話によってこのようなシステムが改善されている。
本稿では,生のコマンド信号をアクションにマッピングするインタフェースを訓練するための強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-09-07T16:52:27Z) - Using Large Language Models to Provide Explanatory Feedback to Human
Tutors [3.2507682694499582]
オンライン授業において,教師にリアルタイムフィードバックを提供するための2つのアプローチを提案する。
このワーク・イン・プログレス(英語版)は、効果的な、あるいは努力に基づく修正フィードバックのためのバイナリ分類においてかなりの精度を示す。
より具体的には、大言語モデルに精通した名前付きエンティティ認識を用いた説明的フィードバックを提供するための拡張されたアプローチについて紹介する。
論文 参考訳(メタデータ) (2023-06-27T14:19:12Z) - Continually Improving Extractive QA via Human Feedback [59.49549491725224]
本研究では,人間のフィードバックによる抽出質問応答(QA)システムの改善を継続的に進める。
多様な設定の下で何千ものユーザインタラクションを含む実験を行い、時間とともにフィードバックからの学習の理解を広げます。
論文 参考訳(メタデータ) (2023-05-21T14:35:32Z) - Multi-trainer Interactive Reinforcement Learning System [7.3072544716528345]
複数のトレーナーを導入することにより,より効果的な対話型強化学習システムを提案する。
特に,トレーナーフィードバックアグリゲーション実験の結果,アグリゲーション法が最も正確であることがわかった。
最後に, MTIRLが評価モデルで訓練した政策が, レビューモデルなしでの政策よりも, 最適ポリシーに近いことを示すために, グリッドワールド実験を行った。
論文 参考訳(メタデータ) (2022-10-14T18:32:59Z) - Reinforcement Learning with Feedback from Multiple Humans with Diverse
Skills [1.433758865948252]
強化学習における堅牢性と探索を改善するための有望なアプローチは、人間のフィードバックを集めることである。
しかし、品質に関する十分なフィードバックを得るには高すぎる場合が多い。
私たちは、十分なフィードバックを得るために、異なるスキルレベルを持つ複数の専門家のグループに頼ることを目指しています。
論文 参考訳(メタデータ) (2021-11-16T16:19:19Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Assisted Perception: Optimizing Observations to Communicate State [112.40598205054994]
我々は、ロボット遠隔操作や視覚障害のあるナビゲーションといったタスクにおいて、ユーザが世界の状態を見積もるのを支援することを目的としている。
ユーザによって処理された場合、より正確な内部状態推定につながる新しい観測結果を合成する。
論文 参考訳(メタデータ) (2020-08-06T19:08:05Z) - Interactive Imitation Learning in State-Space [5.672132510411464]
状態空間における人間のフィードバックを用いてエージェントの動作を訓練し改善する対話型学習手法を提案する。
「状態空間におけるImitative Policies in State-space(TIPS)」という題名のメソッドは、状態の変化の観点からエージェントにガイダンスを提供することを可能にします。」
論文 参考訳(メタデータ) (2020-08-02T17:23:54Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。