論文の概要: State-Conditional Adversarial Learning: An Off-Policy Visual Domain Transfer Method for End-to-End Imitation Learning
- arxiv url: http://arxiv.org/abs/2512.05335v2
- Date: Wed, 24 Dec 2025 07:35:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.145162
- Title: State-Conditional Adversarial Learning: An Off-Policy Visual Domain Transfer Method for End-to-End Imitation Learning
- Title(参考訳): 状態依存型敵対的学習: 終端から終端までの模倣学習のためのオフポリティ・ビジュアルドメイン転送法
- Authors: Yuxiang Liu, Shengfan Cao,
- Abstract要約: ターゲットドメインデータが厳密なオフポリティ、エキスパートフリー、不足といった現実的で困難な環境で、エンド・ツー・エンドの模倣学習のための視覚的ドメイン転送について検討する。
条件付きKL項の判別器に基づく推定器を用いて,システム状態に条件付の潜伏分布を整列する,非政治的逆数学習フレームワークであるステート・コンディショナル・アディショナル・アディショナル・ラーニングを提案する。
- 参考スコア(独自算出の注目度): 4.478475697982079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study visual domain transfer for end-to-end imitation learning in a realistic and challenging setting where target-domain data are strictly off-policy, expert-free, and scarce. We first provide a theoretical analysis showing that the target-domain imitation loss can be upper bounded by the source-domain loss plus a state-conditional latent KL divergence between source and target observation models. Guided by this result, we propose State- Conditional Adversarial Learning, an off-policy adversarial framework that aligns latent distributions conditioned on system state using a discriminator-based estimator of the conditional KL term. Experiments on visually diverse autonomous driving environments built on the BARC-CARLA simulator demonstrate that SCAL achieves robust transfer and strong sample efficiency.
- Abstract(参考訳): ターゲットドメインデータが厳密なオフポリティ、エキスパートフリー、不足といった現実的で困難な環境で、エンド・ツー・エンドの模倣学習のための視覚的ドメイン転送について検討する。
まず、ターゲットドメインの模倣損失が、ソースドメインの損失と、ソースとターゲットの観測モデル間の状態条件付き潜在KL分散によって上限づけられることを示す理論的解析を行った。
この結果から,条件付きKL項の判別器に基づく推定器を用いて,システム状態に条件付の潜伏分布を整列する,非政治的逆数学習フレームワークであるステート・コンディショナル・アディショナル・アディショナル・ラーニングを提案する。
BARC-CARLAシミュレータ上に構築された視覚的に多様な自律走行環境の実験は、SCALが堅牢な転送と強力なサンプル効率を実現することを実証している。
関連論文リスト
- Transfer Learning Through Conditional Quantile Matching [3.86972243789112]
我々は、異種ソースドメインを利用した回帰学習フレームワークを導入し、データスカースターゲットドメインにおける予測性能を改善する。
提案手法は,各ソース領域に対して個別に条件生成モデルを学習し,条件量子マッチングにより対象ドメインに対する応答を校正する。
論文 参考訳(メタデータ) (2026-02-02T17:19:55Z) - Causal Imitation Learning Under Measurement Error and Distribution Shift [6.038778620145853]
ノイズ測定によってのみ、決定関連状態の一部が観察される場合、オフライン模倣学習(IL)について検討する。
本稿では,変数間の因果関係を明示的にモデル化することによって,測定誤差下でのILの一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:06:53Z) - Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - On the Transferability and Discriminability of Repersentation Learning in Unsupervised Domain Adaptation [40.32838937328407]
標準的な逆数ベースのフレームワークは、ターゲットドメイン機能の識別性を無視し、最適以下のパフォーマンスをもたらす。
本稿では、ドメインアライメントの目的と識別可能性向上の制約を明確に統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-28T08:24:43Z) - Policy Regularization on Globally Accessible States in Cross-Dynamics Reinforcement Learning [53.9544543607396]
我々は、報酬レンダリングとImitation from Observation (IfO)を統合した新しいフレームワークを提案する。
異なる方法でF距離をインスタンス化することにより、2つの理論的解析を導き、アクセシブルステート指向ポリシー規則化(ASOR)と呼ばれる実用的なアルゴリズムを開発する。
ASOR は、オフライン RL やオフライン RL など、様々なアプローチ RL に組み込まれる一般的なアドオンモジュールとして機能する。
論文 参考訳(メタデータ) (2025-03-10T03:50:20Z) - Towards Context-Aware Domain Generalization: Understanding the Benefits and Limits of Marginal Transfer Learning [9.583150523551636]
我々は、コンテキストの概念をデータポイントの集合の置換不変表現として定式化する。
経験的分析により、我々の基準は好ましくないシナリオと好ましくないシナリオの両方を識別するのに有効であることが示された。
論文 参考訳(メタデータ) (2023-12-15T05:18:07Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。