Fugu-MT 論文翻訳(概要): TubeDAgger: Reducing the Number of Expert Interventions with Stochastic Reach-Tubes

論文の概要: TubeDAgger: Reducing the Number of Expert Interventions with Stochastic Reach-Tubes

arxiv url: http://arxiv.org/abs/2510.00906v1
Date: Wed, 01 Oct 2025 13:45:16 GMT
ステータス: 翻訳完了
システム内更新日: 2025-10-03 16:59:20.590892
Title: TubeDAgger: Reducing the Number of Expert Interventions with Stochastic Reach-Tubes
Title（参考訳）: TubeDAgger: 確率的リーチチューブによるエキスパート介入数の削減
Authors: Julian Lemmel, Manuel Kranzl, Adam Lamine, Philipp Neubauer, Radu Grosu, Sophie A. Neubauer,
Abstract要約: DAggerアルゴリズムは、環境とのインタラクションとネットワークの再トレーニングを交互に行い、堅牢な初心者ポリシーを訓練する。本稿では,専門家の介入の必要性を推定するための新しい手法として,リーチチューブの利用を提案する。
参考スコア（独自算出の注目度）: 8.555610126960728
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Interactive Imitation Learning deals with training a novice policy from expert demonstrations in an online fashion. The established DAgger algorithm trains a robust novice policy by alternating between interacting with the environment and retraining of the network. Many variants thereof exist, that differ in the method of discerning whether to allow the novice to act or return control to the expert. We propose the use of stochastic reachtubes - common in verification of dynamical systems - as a novel method for estimating the necessity of expert intervention. Our approach does not require fine-tuning of decision thresholds per environment and effectively reduces the number of expert interventions, especially when compared with related approaches that make use of a doubt classification model.
Abstract（参考訳）: インタラクティブ・イミテーション・ラーニング(Interactive Imitation Learning)は、専門家によるオンラインなデモンストレーションから初歩的なポリシーをトレーニングする。確立されたDAggerアルゴリズムは、環境とのインタラクションとネットワークの再トレーニングを交互に行い、堅牢な初心者ポリシーを訓練する。初心者の行動を認めるか、専門家に制御を返すかの判断方法が異なる多くの変種が存在する。本稿では,専門的介入の必要性を推定するための新しい手法として,動的システムの検証に共通する確率的リーチチューブを提案する。提案手法は環境ごとの決定しきい値の微調整を必要とせず,特に疑わしい分類モデルを用いた関連するアプローチと比較して,専門家による介入の回数を効果的に削減する。

関連論文リスト

Adaptive Prompting for Continual Relation Extraction: A Within-Task Variance Perspective [23.79259400522239]
本稿では,連続関係抽出における破滅的忘れに対処する新しい手法を提案する。提案手法では各タスクにプロンプトプールを導入し,タスク内の変動を捉えるとともに,タスク間の差異を増大させる。
論文参考訳（メタデータ） (2024-12-11T11:00:33Z)
Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文参考訳（メタデータ） (2024-09-11T17:01:06Z)
RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文参考訳（メタデータ） (2023-11-21T21:05:21Z)
Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文参考訳（メタデータ） (2023-10-28T05:59:43Z)
Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文参考訳（メタデータ） (2023-02-27T14:47:52Z)
Scalable and Robust Self-Learning for Skill Routing in Large-Scale Conversational AI Systems [13.705147776518421]
最先端システムは、自然な会話を可能にするためにモデルベースのアプローチを使用する。ルーティングの代替を探索するスケーラブルな自己学習手法を提案する。
論文参考訳（メタデータ） (2022-04-14T17:46:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。