論文の概要: Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity
- arxiv url: http://arxiv.org/abs/2603.17577v1
- Date: Wed, 18 Mar 2026 10:33:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.648295
- Title: Identifying Latent Actions and Dynamics from Offline Data via Demonstrator Diversity
- Title(参考訳): デモレータの多様性によるオフラインデータからの潜時行動とダイナミクスの同定
- Authors: Felix Schur,
- Abstract要約: 各デモ参加者は異なる方針に従うと仮定し、環境力学はデモ参加者間で共有され、アイデンティティは選択された行動を通してのみ次の観察に影響を与えると仮定する。
我々は、潜伏遷移と実証的ポリシーが潜伏行動ラベルの置換によって識別可能であることを証明した。
これらの結果は、オフラインのRLデータから潜伏動作やダイナミクスを学習するための、原則的識別可能性の源として、実証者の多様性を確立している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can latent actions and environment dynamics be recovered from offline trajectories when actions are never observed? We study this question in a setting where trajectories are action-free but tagged with demonstrator identity. We assume that each demonstrator follows a distinct policy, while the environment dynamics are shared across demonstrators and identity affects the next observation only through the chosen action. Under these assumptions, the conditional next-observation distribution $p(o_{t+1}\mid o_t,e)$ is a mixture of latent action-conditioned transition kernels with demonstrator-specific mixing weights. We show that this induces, for each state, a column-stochastic nonnegative matrix factorization of the observable conditional distribution. Using sufficiently scattered policy diversity and rank conditions, we prove that the latent transitions and demonstrator policies are identifiable up to permutation of the latent action labels. We extend the result to continuous observation spaces via a Gram-determinant minimum-volume criterion, and show that continuity of the transition map over a connected state space upgrades local permutation ambiguities to a single global permutation. A small amount of labeled action data then suffices to fix this final ambiguity. These results establish demonstrator diversity as a principled source of identifiability for learning latent actions and dynamics from offline RL data.
- Abstract(参考訳): 動作が観測されない場合、遅延アクションと環境ダイナミクスはオフラインの軌跡から回復できるだろうか?
本研究では, トラジェクトリが行動自由であるが, デモレータのアイデンティティをタグ付けした環境で, この問題を考察する。
各デモ参加者は異なる方針に従うと仮定し、環境力学はデモ参加者間で共有され、アイデンティティは選択された行動を通してのみ次の観察に影響を与えると仮定する。
これらの仮定の下では、条件付き次観測分布 $p(o_{t+1}\mid o_t,e)$ は潜在作用条件遷移核とデモンストレータ固有の混合重み付けの混合である。
これは各状態に対して、観測可能な条件分布のカラム確率非負行列分解を誘導することを示す。
十分に分散したポリシーの多様性とランク条件を用いて、潜時遷移と実証的ポリシーが潜時行動ラベルの置換によって識別可能であることを証明した。
この結果は,Gram-Determinant minimum-volume criterion を用いて連続的な観測空間に拡張され,連結状態空間上の遷移写像の連続性は局所的な置換の曖昧さを1つの大域的な置換にアップグレードすることを示す。
ラベル付きアクションデータの少量は、この最終的な曖昧さを修正するのに十分である。
これらの結果は、オフラインのRLデータから潜伏動作やダイナミクスを学習するための、原則的識別可能性の源として、実証者の多様性を確立している。
関連論文リスト
- A Generative Sampler for distributions with possible discrete parameter based on Reversibility [9.349846971147256]
本稿では,多種多様な状態空間にまたがって適用可能な,統一的かつ段階的な目標自由な生成サンプリングフレームワークを提案する。
我々は,前方と後方のマルコフ軌道の関節分布の最大平均差 (MMD) を最小化する。
実験により,本フレームワークは熱力学観測器を正確に再現し,すべてのレシエーションでモードスイッチング動作を捉えていることがわかった。
論文 参考訳(メタデータ) (2026-03-10T06:32:51Z) - COP-GEN: Latent Diffusion Transformer for Copernicus Earth Observation Data -- Generation Stochastic by Design [9.278432103577925]
地球観測の応用は、光学、レーダー、標高、土地被覆製品を含む複数のセンサーのデータにますます依存している。
本研究では,不均一な地球観測モードの空間分解能の共分散をモデルとした潜時拡散変換器COP-GENを紹介する。
大規模なグローバルマルチモーダルデータセットの実験では、COP-GENは光学、レーダー、高度のモードで強いピーク忠実性を維持しながら、多種多様な物理的に一貫した実現を生成する。
論文 参考訳(メタデータ) (2026-03-03T18:31:46Z) - Counterfactual Identifiability via Dynamic Optimal Transport [15.637845261800463]
我々は、反事実は因果的主張を正当化するために識別可能でなければならないと論じている。
反実的推論に関する最近の研究は、有望な結果を示すが、識別に欠ける。
論文 参考訳(メタデータ) (2025-10-09T14:45:13Z) - Identifiable Representation and Model Learning for Latent Dynamic Systems [0.0]
本稿では,潜在力学系における表現とモデル学習の問題について検討する。
線形およびアフィン非線形潜時力学系にスパース入力行列を持つ場合、潜時変数をスケーリングまで同定できることを証明した。
論文 参考訳(メタデータ) (2024-10-23T13:55:42Z) - Leveraging sparse and shared feature activations for disentangled
representation learning [112.22699167017471]
本稿では,教師付きタスクの多種多様な集合から抽出した知識を活用し,共通不整合表現を学習することを提案する。
我々は6つの実世界分布シフトベンチマークと異なるデータモダリティに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-04-17T01:33:24Z) - Latent Covariate Shift: Unlocking Partial Identifiability for Multi-Source Domain Adaptation [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - Weakly Supervised Representation Learning with Sparse Perturbations [82.39171485023276]
潜伏変数のスパース摂動によって生じる観測の監督が弱い場合、未知の連続潜伏分布の下で識別が達成可能であることを示す。
本稿では,この理論に基づく自然な推定手法を提案し,それを低次元の合成および画像に基づく実験で説明する。
論文 参考訳(メタデータ) (2022-06-02T15:30:07Z) - Learning Conditional Invariance through Cycle Consistency [60.85059977904014]
本稿では,データセットの変動の有意義な要因と独立な要因を識別する新しい手法を提案する。
提案手法は,対象プロパティと残りの入力情報に対する2つの別個の潜在部分空間を含む。
我々は,より意味のある因子を同定し,よりスペーサーや解釈可能なモデルに導く合成および分子データについて実証する。
論文 参考訳(メタデータ) (2021-11-25T17:33:12Z) - Provably End-to-end Label-Noise Learning without Anchor Points [118.97592870124937]
本稿では,アンカーポイントを使わずにラベルノイズ学習を実現するためのエンドツーエンドフレームワークを提案する。
提案フレームワークでは,クリーンなクラス後確率が十分に分散している場合,遷移行列を同定できる。
論文 参考訳(メタデータ) (2021-02-04T03:59:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。