論文の概要: TubeDAgger: Reducing the Number of Expert Interventions with Stochastic Reach-Tubes
- arxiv url: http://arxiv.org/abs/2510.00906v1
- Date: Wed, 01 Oct 2025 13:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.590892
- Title: TubeDAgger: Reducing the Number of Expert Interventions with Stochastic Reach-Tubes
- Title(参考訳): TubeDAgger: 確率的リーチチューブによるエキスパート介入数の削減
- Authors: Julian Lemmel, Manuel Kranzl, Adam Lamine, Philipp Neubauer, Radu Grosu, Sophie A. Neubauer,
- Abstract要約: DAggerアルゴリズムは、環境とのインタラクションとネットワークの再トレーニングを交互に行い、堅牢な初心者ポリシーを訓練する。
本稿では,専門家の介入の必要性を推定するための新しい手法として,リーチチューブの利用を提案する。
- 参考スコア(独自算出の注目度): 8.555610126960728
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interactive Imitation Learning deals with training a novice policy from expert demonstrations in an online fashion. The established DAgger algorithm trains a robust novice policy by alternating between interacting with the environment and retraining of the network. Many variants thereof exist, that differ in the method of discerning whether to allow the novice to act or return control to the expert. We propose the use of stochastic reachtubes - common in verification of dynamical systems - as a novel method for estimating the necessity of expert intervention. Our approach does not require fine-tuning of decision thresholds per environment and effectively reduces the number of expert interventions, especially when compared with related approaches that make use of a doubt classification model.
- Abstract(参考訳): インタラクティブ・イミテーション・ラーニング(Interactive Imitation Learning)は、専門家によるオンラインなデモンストレーションから初歩的なポリシーをトレーニングする。
確立されたDAggerアルゴリズムは、環境とのインタラクションとネットワークの再トレーニングを交互に行い、堅牢な初心者ポリシーを訓練する。
初心者の行動を認めるか、専門家に制御を返すかの判断方法が異なる多くの変種が存在する。
本稿では,専門的介入の必要性を推定するための新しい手法として,動的システムの検証に共通する確率的リーチチューブを提案する。
提案手法は環境ごとの決定しきい値の微調整を必要とせず,特に疑わしい分類モデルを用いた関連するアプローチと比較して,専門家による介入の回数を効果的に削減する。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - Value Function Decomposition in Markov Recommendation Process [19.082512423102855]
本稿では,レコメンダ性能を向上させるためのオンライン強化学習フレームワークを提案する。
これらの2つの因子は、元の時間差損失を分解することで、別々に近似できることを示す。
アンタングル学習フレームワークは、より高速な学習と、アクション探索に対する堅牢性の向上により、より正確な推定を実現することができる。
論文 参考訳(メタデータ) (2025-01-29T04:22:29Z) - Adaptive Prompting for Continual Relation Extraction: A Within-Task Variance Perspective [23.79259400522239]
本稿では,連続関係抽出における破滅的忘れに対処する新しい手法を提案する。
提案手法では各タスクにプロンプトプールを導入し,タスク内の変動を捉えるとともに,タスク間の差異を増大させる。
論文 参考訳(メタデータ) (2024-12-11T11:00:33Z) - Hierarchical Reinforcement Learning for Temporal Abstraction of Listwise Recommendation [51.06031200728449]
我々はmccHRLと呼ばれる新しいフレームワークを提案し、リストワイドレコメンデーションにおける時間的抽象化のレベルを異なるものにする。
階層的な枠組みの中では、ハイレベルエージェントがユーザ知覚の進化を研究し、低レベルエージェントがアイテム選択ポリシーを作成している。
その結果,本手法による性能改善は,いくつかのよく知られたベースラインと比較して有意な結果が得られた。
論文 参考訳(メタデータ) (2024-09-11T17:01:06Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Online Decision Mediation [72.80902932543474]
意思決定支援アシスタントを学習し、(好奇心)専門家の行動と(不完全)人間の行動の仲介役として機能することを検討する。
臨床診断では、完全に自律的な機械行動は倫理的余裕を超えることが多い。
論文 参考訳(メタデータ) (2023-10-28T05:59:43Z) - Interactive Graph Convolutional Filtering [79.34979767405979]
インタラクティブ・レコメンダ・システム(IRS)は、パーソナライズされた記事レコメンデーション、ソーシャルメディア、オンライン広告など、さまざまな領域でますます利用されている。
これらの問題は、コールドスタート問題とデータスポーサリティ問題によって悪化する。
既存のMulti-Armed Bandit手法は、慎重に設計された探査戦略にもかかわらず、しばしば初期の段階で満足な結果を提供するのに苦労する。
提案手法は,ユーザとアイテム間の協調フィルタリング性能を向上させるため,協調フィルタリングをグラフモデルに拡張する。
論文 参考訳(メタデータ) (2023-09-04T09:02:31Z) - MEGA-DAgger: Imitation Learning with Multiple Imperfect Experts [7.4506213369860195]
MEGA-DAggerは、複数の不完全な専門家と対話的な学習に適した新しいDAgger亜種である。
我々は,MEGA-DAggerを用いて学習したポリシーが,最先端のインタラクティブな模倣学習アルゴリズムを用いて学習した専門家と政策の両方より優れていることを実証した。
論文 参考訳(メタデータ) (2023-03-01T16:40:54Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Scalable and Robust Self-Learning for Skill Routing in Large-Scale
Conversational AI Systems [13.705147776518421]
最先端システムは、自然な会話を可能にするためにモデルベースのアプローチを使用する。
ルーティングの代替を探索するスケーラブルな自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-14T17:46:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。