論文の概要: On the Identifiability of Latent Action Policies
- arxiv url: http://arxiv.org/abs/2510.01337v1
- Date: Wed, 01 Oct 2025 18:09:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.811407
- Title: On the Identifiability of Latent Action Policies
- Title(参考訳): 潜伏行動政策の不確定性について
- Authors: Sébastien Lachapelle,
- Abstract要約: 近年,映像データから行動表現を検出するフレームワークであるLAPO(Latent Action Policy Learning)の識別可能性について検討した。
このような表現のデシダラタについて、その統計的利点と識別不可能性の潜在的な源について、正式に記述する。
- 参考スコア(独自算出の注目度): 4.316406609929958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the identifiability of latent action policy learning (LAPO), a framework introduced recently to discover representations of actions from video data. We formally describe desiderata for such representations, their statistical benefits and potential sources of unidentifiability. Finally, we prove that an entropy-regularized LAPO objective identifies action representations satisfying our desiderata, under suitable conditions. Our analysis provides an explanation for why discrete action representations perform well in practice.
- Abstract(参考訳): 近年,映像データから行動表現を検出するフレームワークであるLAPO(Latent Action Policy Learning)の識別可能性について検討した。
このような表現のデシダラタについて、その統計的利点と識別不可能性の潜在的な源について、正式に記述する。
最後に、エントロピー規則化されたLAPOの目的が、適切な条件下で、私たちのデシラタを満たす行動表現を特定することを証明した。
我々の分析は、なぜ離散的な行動表現が実際にうまく機能するのかを説明する。
関連論文リスト
- Code Models are Zero-shot Precondition Reasoners [83.8561159080672]
シーケンシャルな意思決定タスクのために、コード表現を使ってアクションの前提条件を推論します。
本稿では,政策によって予測される行動が前提条件と一致していることを保証する事前条件対応行動サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2023-11-16T06:19:27Z) - On Generating Explanations for Reinforcement Learning Policies: An Empirical Study [2.3418061477154786]
本稿では、ポリシーの説明を提供するために設計されたテキストリニア時間論理式について紹介する。
我々の焦点は、政策によって達成される最終的な目的と、実行を通じて維持される前提条件の両方を解明する説明である。
論文 参考訳(メタデータ) (2023-09-29T03:57:39Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - PARTNR: Pick and place Ambiguity Resolving by Trustworthy iNteractive
leaRning [5.046831208137847]
本稿では,選択と配置のポーズにおける複数のモーダルを解析することにより,訓練されたポリシーのあいまいさを検出できるPartinNRアルゴリズムを提案する。
PartNRは、追加のユーザデモが必要なかどうかを判断する適応型、感度ベースのゲーティング機能を採用している。
テーブルトップのピック・アンド・プレイス・タスクにおけるPartinNRの性能を実演する。
論文 参考訳(メタデータ) (2022-11-15T17:07:40Z) - "Guess what I'm doing": Extending legibility to sequential decision
tasks [7.352593846694083]
不確実性を考慮したシーケンシャルな意思決定課題における正当性の概念について検討する。
提案手法はPoL-MDPと呼ばれ,不確実性に対処できる。
論文 参考訳(メタデータ) (2022-09-19T16:01:33Z) - Explainability in Process Outcome Prediction: Guidelines to Obtain
Interpretable and Faithful Models [77.34726150561087]
本稿では、プロセス結果予測の分野における説明可能性モデルと説明可能性モデルの忠実性を通して、説明可能性を定義する。
本稿では,イベントログの仕様に基づいて適切なモデルを選択することのできる,X-MOPというガイドラインのセットを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:59:50Z) - Proximal Reinforcement Learning: Efficient Off-Policy Evaluation in
Partially Observed Markov Decision Processes [65.91730154730905]
医療や教育などの観察データへのオフライン強化学習の適用においては、観察された行動は観測されていない要因に影響される可能性があるという一般的な懸念がある。
ここでは、部分的に観察されたマルコフ決定過程(POMDP)における非政治評価を考慮し、この問題に取り組む。
我々は、近位因果推論の枠組みをPOMDP設定に拡張し、識別が可能となる様々な設定を提供する。
論文 参考訳(メタデータ) (2021-10-28T17:46:14Z) - Evaluations and Methods for Explanation through Robustness Analysis [117.7235152610957]
分析による特徴に基づく説明の新たな評価基準を確立する。
我々は、緩やかに必要であり、予測に十分である新しい説明を得る。
我々は、現在の予測をターゲットクラスに移動させる一連の特徴を抽出するために、説明を拡張します。
論文 参考訳(メタデータ) (2020-05-31T05:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。