論文の概要: Quantifying Potential Observation Missingness in Inverse Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.12831v1
- Date: Tue, 12 May 2026 23:56:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:27.732012
- Title: Quantifying Potential Observation Missingness in Inverse Reinforcement Learning
- Title(参考訳): 逆強化学習における潜在的観察不足の定量化
- Authors: Leo Benac, Abhishek Sharma, Alihan Huyuk, Finale Doshi-Velez,
- Abstract要約: 逆強化学習(IRL)は、実演から報酬関数を推論する。
記録されたデータは、元の意思決定者で利用可能な観測結果が欠落している可能性があることを示す。
医療などの利用にインスパイアされた環境では、専門家の行動が最適に見えます。
- 参考スコア(独自算出の注目度): 12.208013534038324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inverse reinforcement learning (IRL), which infers reward functions from demonstrations, is a valuable tool for modeling and understanding decision-making behavior. Many variants of IRL have been developed to capture complexities of human decision-making, such as subjective beliefs, imperfect planning, and dynamic goals. However, an often-overlooked issue in real-world behavioral datasets is that the recorded data may be missing observations that were available to the original decision-maker. In use-inspired settings such as healthcare, this can make expert actions appear suboptimal, even when they were near-optimal given the information available at the time. As a result, the rewards learned by standard IRL may be misleading. In this paper, we identify the minimal perturbations to the recorded observations needed for the expert's actions to appear optimal. We develop a practical algorithm for this problem and demonstrate its utility for quantifying the possible extent of missing observations in behavioral datasets through extensive experiments on synthetic navigation tasks, a cancer treatment simulator, and ICU treatment data.
- Abstract(参考訳): 実証から報酬関数を推論する逆強化学習(IRL)は、意思決定行動のモデル化と理解に有用なツールである。
IRLの多くの変種は、主観的信念、不完全な計画、動的目標など、人間の意思決定の複雑さを捉えるために開発された。
しかし、現実の行動データセットでは、しばしば見過ごされる問題は、記録されたデータが元の意思決定者によって入手できた観察を欠いている可能性があることである。
医療などのユースケースにインスパイアされた環境では、当時利用可能な情報がほぼ最適であったとしても、専門家の行動が最適に見えます。
その結果、標準IRLで学んだ報酬は誤解を招く可能性がある。
本稿では,専門家の行動が最適であるのに必要な観測値に対する最小限の摂動を同定する。
本研究は, 合成ナビゲーションタスク, 癌治療シミュレータ, ICU 処理データを用いた広範囲な実験により, 行動データセットの欠落の程度を定量化するための実用的アルゴリズムを開発し, その有用性を示す。
関連論文リスト
- Summary of the Unusual Activity Recognition Challenge for Developmental Disability Support [1.369513462160388]
この課題は、発達障害のある個人のための施設における異常な行動の自動認識の必要性に対処することを目的としている。
シミュレーションシナリオのビデオ記録から抽出した骨格キーポイントに基づいて,正常な活動と異常な活動の区別を行う。
このデータセットは実世界の不均衡と時間的不規則を反映し、評価は主観的一般化を保証するためにLeave-One-Subject-Out(LOSO)戦略を採用した。
論文 参考訳(メタデータ) (2026-01-21T04:41:35Z) - From Physics to Machine Learning and Back: Part II - Learning and Observational Bias in PHM [52.64097278841485]
物理インフォームドモデリングとデータストラテジーによる学習と観察バイアスの導入は、モデルを物理的に一貫した信頼性のある予測へと導くことができるかを検討する。
メタラーニングや少数ショットラーニングなどの高速適応手法をドメイン一般化手法とともに検討する。
論文 参考訳(メタデータ) (2025-09-25T14:15:43Z) - Stochastic Encodings for Active Feature Acquisition [100.47043816019888]
Active Feature Acquisitionは、インスタンスワイドでシーケンシャルな意思決定問題である。
目的は、テストインスタンスごとに独立して、現在の観測に基づいて計測する機能を動的に選択することである。
一般的なアプローチは強化学習(Reinforcement Learning)であり、トレーニングの困難を経験する。
我々は、教師付きで訓練された潜在変数モデルを導入し、潜在空間における観測不能な実現の可能性の多くにまたがる特徴を推論することで獲得する。
論文 参考訳(メタデータ) (2025-08-03T23:48:46Z) - Value from Observations: Towards Large-Scale Imitation Learning via Self-Improvement [19.883973457999282]
Imitation Learning from Observation (IfO)は、大規模に振る舞いを学ぶ強力な方法を提供する。
本稿では,主にバイモーダル品質のデータ分布を用いた理想的なシナリオについて検討し,そのようなデータから学習する方法を提案する。
提案手法は,専門家データと非専門家データ間の情報伝達に値関数を用いて,アクションフリーな実演にRLに基づく模倣学習を適用した。
論文 参考訳(メタデータ) (2025-07-09T09:55:23Z) - Offline Action-Free Learning of Ex-BMDPs by Comparing Diverse Datasets [87.62730694973696]
本稿では,エージェント間の制御可能な特徴ダイナミクスの違いを利用して表現を学習する,サンプル効率のよいアルゴリズムCRAFTを紹介する。
我々はCRAFTの性能を理論的に保証し、おもちゃの例でその実現可能性を示す。
論文 参考訳(メタデータ) (2025-03-26T22:05:57Z) - Green LIME: Improving AI Explainability through Design of Experiments [44.99833362998488]
Local Interpretable Model-Agnostic Explanations (LIME)は、興味のあるインスタンスの近くで新しいデータポイントを生成し、それらをモデルに渡すことによって、説明を提供する。
LIMEは非常に多用途であり、幅広いモデルやデータセットに適用できる。
論文 参考訳(メタデータ) (2025-02-18T11:15:04Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Reinforcement Learning from Passive Data via Latent Intentions [86.4969514480008]
我々は、下流RLを加速する機能を学ぶために、受動的データが引き続き使用できることを示す。
我々のアプローチは、意図をモデル化することで受動的データから学習する。
実験では、クロス・エボディメント・ビデオデータやYouTubeビデオなど、さまざまな形式の受動的データから学習できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:59:05Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。