論文の概要: Robust Intervention Learning from Emergency Stop Interventions
- arxiv url: http://arxiv.org/abs/2602.03825v1
- Date: Tue, 03 Feb 2026 18:33:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.642226
- Title: Robust Intervention Learning from Emergency Stop Interventions
- Title(参考訳): 緊急停止介入によるロバスト介入学習
- Authors: Ethan Pronovost, Khimya Khetarpal, Siddhartha Srinivasa,
- Abstract要約: 緊急介入の文脈における堅牢な介入学習について検討する。
不完全な学習信号として介入フィードバックを扱う残差微細チューニングアルゴリズムであるResidual Intervention Fine-Tuning (RIFT)を提案する。
- 参考スコア(独自算出の注目度): 4.379139566099215
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Human interventions are a common source of data in autonomous systems during testing. These interventions provide an important signal about where the current policy needs improvement, but are often noisy and incomplete. We define Robust Intervention Learning (RIL) as the problem of learning from intervention data while remaining robust to the quality and informativeness of the intervention signal. In the best case, interventions are precise and avoiding them is sufficient to solve the task, but in many realistic settings avoiding interventions is necessary but not sufficient for achieving good performance. We study robust intervention learning in the context of emergency stop interventions and propose Residual Intervention Fine-Tuning (RIFT), a residual fine-tuning algorithm that treats intervention feedback as an incomplete learning signal and explicitly combines it with a prior policy. By framing intervention learning as a fine-tuning problem, our approach leverages structure encoded in the prior policy to resolve ambiguity when intervention signals under-specify the task. We provide theoretical analysis characterizing conditions under which this formulation yields principled policy improvement, and identify regimes where intervention learning is expected to fail. Our experiments reveal that residual fine-tuning enables robust and consistent policy improvement across a range of intervention strategies and prior policy qualities, and highlight robust intervention learning as a promising direction for future work.
- Abstract(参考訳): 人間の介入は、テスト中の自律システムの一般的なデータ源である。
これらの介入は、現在の政策の改善が必要な場所に関する重要なシグナルを提供するが、しばしば騒々しく不完全である。
本稿では,ロバスト・インターベンション・ラーニング(RIL)を,介入信号の品質と情報性に頑健でありながら,介入データから学習する問題として定義する。
最良の場合、介入は正確であり、それらを回避することはタスクを解決するのに十分であるが、多くの現実的な環境では介入を避ける必要があるが、優れたパフォーマンスを達成するには不十分である。
本研究では、緊急停止介入の文脈における堅牢な介入学習について検討し、介入フィードバックを不完全な学習信号として扱い、それと事前ポリシーを明示的に組み合わせた残留細調整アルゴリズムであるResidual Intervention Fine-Tuning (RIFT)を提案する。
介入学習を微調整問題とすることで、介入信号がタスクを過小評価する際のあいまいさを解決するために、事前ポリシーで符号化された構造を利用する。
我々は,この定式化が原則的政策改善をもたらす条件を理論的に解析し,介入学習が失敗すると予測される体制を特定する。
実験の結果, 残余の微調整により, 様々な介入戦略, 事前の政策品質にわたって, 堅牢かつ一貫した政策改善が可能であり, 今後の作業の道筋として, 堅牢な介入学習が重要であることがわかった。
関連論文リスト
- SCOPE: Sequential Causal Optimization of Process Interventions [7.0510722193237045]
本稿では,協調的介入勧告を学習するPresPMアプローチであるSCOPEを紹介する。
SCOPEは、各候補の介入行動の効果を推定するために後方誘導を採用し、その影響を最終決定点から第一決定点まで伝播させる。
既存の合成データセットと新しい半合成データセットの実験は、SCOPEが最先端のPresPM技術より一貫して優れていることを示している。
論文 参考訳(メタデータ) (2025-12-19T14:33:02Z) - Reinforcement Learning via Implicit Imitation Guidance [49.88208134736617]
自然なアプローチは、訓練中の正規化や参照ポリシーの取得など、模倣学習の目的を取り入れることである。
提案手法では,条件に付加されたノイズによる探索を導出するための先行データのみを用いて,明示的な行動クローニング制約の必要性を回避することを提案する。
提案手法は、7つの模擬連続制御タスクにまたがるオフライン手法による事前強化学習よりも最大2~3倍向上する。
論文 参考訳(メタデータ) (2025-06-09T07:32:52Z) - Reduced-Rank Multi-objective Policy Learning and Optimization [57.978477569678844]
実際には、因果研究者は先験を念頭において1つの結果を持っていない。
政府支援の社会福祉プログラムでは、政策立案者は貧困の多次元的性質を理解するために多くの成果を集めている。
本稿では、最適政策学習の文脈において、複数の結果に対するデータ駆動型次元性推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-29T08:16:30Z) - Prescriptive Process Monitoring Under Resource Constraints: A
Reinforcement Learning Approach [0.3807314298073301]
強化学習は、試行錯誤を通じて介入政策を学ぶためのアプローチとして提案されている。
この領域における既存のアプローチは、プロセスの介入を行うのに利用可能なリソースの数が無制限であると仮定する。
本稿では、資源制約の存在下では、規範的プロセス監視の分野における重要なジレンマは、その必要性、スケジュール、効果の予測だけでなく、これらの予測の不確実性や資源利用のレベルにも基づく介入をトリガーすることである、と論じる。
論文 参考訳(メタデータ) (2023-07-13T05:31:40Z) - Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care [46.2482873419289]
我々は、より信頼性の高いクリティカルケアポリシーを得るための深いQ-ラーニングアプローチを導入する。
本手法を,集中治療室のシミュレーション環境と実際の健康記録を用いて,オフライン・オフ・セッティングで評価した。
論文 参考訳(メタデータ) (2023-06-13T18:02:57Z) - Assessing the Impact of Context Inference Error and Partial
Observability on RL Methods for Just-In-Time Adaptive Interventions [12.762365585427377]
ジャスト・イン・タイム・アダプティブ・インターベンション(Just-in-Time Adaptive Interventions, JITAI)は、行動科学コミュニティ内で開発されたパーソナライズされた健康介入のクラスである。
JITAIは、事前定義されたコンポーネントセットから介入オプションのシーケンスを反復的に選択することで、適切なタイプとサポート量を提供することを目指している。
本研究では,文脈推定誤差と部分観測可能性が効果的な政策学習能力に与える影響について検討する。
論文 参考訳(メタデータ) (2023-05-17T02:46:37Z) - When to intervene? Prescriptive Process Monitoring Under Uncertainty and
Resource Constraints [0.7487718119544158]
規範的なプロセス監視アプローチは、過去のデータを活用して実行時の介入を規定する。
この分野での以前の提案は、与えられたケースの現在の状態のみを考慮した介入ポリシーに依存している。
本稿では,予測スコア,予測の不確実性,介入の因果効果に基づいて進行中の事例をフィルタリング・ランク付けし,利得関数を最大化するために介入をトリガーする規範的プロセス監視手法を導入することにより,これらのギャップに対処する。
論文 参考訳(メタデータ) (2022-06-15T18:18:33Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。
本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-08T23:16:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。