Fugu-MT 論文翻訳(概要): Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

論文の概要: Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics

arxiv url: http://arxiv.org/abs/2603.12087v1
Date: Thu, 12 Mar 2026 15:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-13 14:46:26.195491
Title: Cross-Domain Policy Optimization via Bellman Consistency and Hybrid Critics
Title（参考訳）: ベルマン整合性とハイブリッド批評家によるクロスドメイン政策最適化
Authors: Ming-Hong Chen, Kuan-Chen Pan, You-De Huang, Xi Liu, Ping-Chun Hsieh,
Abstract要約: クロスドメイン強化学習(CDRL)は、ソースドメインから収集したデータを活用することにより、RLのデータ効率を向上させることを目的としている。その可能性にもかかわらず、RLのクロスドメイン移動は2つの基本的かつ相互に競合する課題を持つことが知られている。
参考スコア（独自算出の注目度）: 12.376146374821703
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Cross-domain reinforcement learning (CDRL) is meant to improve the data efficiency of RL by leveraging the data samples collected from a source domain to facilitate the learning in a similar target domain. Despite its potential, cross-domain transfer in RL is known to have two fundamental and intertwined challenges: (i) The source and target domains can have distinct state space or action space, and this makes direct transfer infeasible and thereby requires more sophisticated inter-domain mappings; (ii) The transferability of a source-domain model in RL is not easily identifiable a priori, and hence CDRL can be prone to negative effect during transfer. In this paper, we propose to jointly tackle these two challenges through the lens of \textit{cross-domain Bellman consistency} and \textit{hybrid critic}. Specifically, we first introduce the notion of cross-domain Bellman consistency as a way to measure transferability of a source-domain model. Then, we propose $Q$Avatar, which combines the Q functions from both the source and target domains with an adaptive hyperparameter-free weight function. Through this design, we characterize the convergence behavior of $Q$Avatar and show that $Q$Avatar achieves reliable transfer in the sense that it effectively leverages a source-domain Q function for knowledge transfer to the target domain. Through experiments, we demonstrate that $Q$Avatar achieves favorable transferability across various RL benchmark tasks, including locomotion and robot arm manipulation. Our code is available at https://rl-bandits-lab.github.io/Cross-Domain-RL/.
Abstract（参考訳）: クロスドメイン強化学習(CDRL)は、ソースドメインから収集したデータを活用することにより、RLのデータ効率を向上させることを目的としている。その可能性にもかかわらず、RLのクロスドメイン転送には2つの基本的な課題があることが知られている。 i) ソースドメインとターゲットドメインは、異なる状態空間またはアクション空間を持つことができ、これにより直接転送が不可能になり、したがって、より洗練されたドメイン間マッピングが必要になります。 (II)RLにおけるソースドメインモデルの転送性は、プリオリが容易に識別できないため、CDRLは転送中に負の影響を受けやすい。本稿では,これら2つの課題を,textit{cross-domain Bellman consistency} と \textit{hybrid critic} のレンズを用いて共同で解決することを提案する。具体的には、まず、ソース・ドメインモデルの転送可能性を測定する手段として、クロスドメイン・ベルマン整合性の概念を紹介します。次に、ソース領域とターゲット領域の両方のQ関数と適応的ハイパーパラメータフリーウェイト関数を組み合わせた$Q$Avatarを提案する。この設計を通じて、$Q$Avatarの収束挙動を特徴付けるとともに、$Q$Avatarは、ターゲットドメインへの知識伝達にソースドメインQ関数を効果的に活用するという意味で、信頼できる転送を実現することを示す。実験により,ロコモーションやロボットアーム操作など,様々なRLベンチマークタスクにおいて,Q$Avatarが良好な転送性を実現することを示す。私たちのコードはhttps://rl-bandits-lab.github.io/Cross-Domain-RL/で利用可能です。

関連論文リスト

LLM-EDT: Large Language Model Enhanced Cross-domain Sequential Recommendation with Dual-phase Training [53.539682966282534]
クロスドメインシーケンスレコメンデーション (CDSR) は、様々なドメインからの情報を取り入れることで、ユーザとイテムのインタラクションを強化するために提案されている。現在の進歩にもかかわらず、不均衡問題と移行問題はCDSRのさらなる発展を妨げる。デュアルフェーズトレーニング(LLM-EDT)によるLLMの拡張型クロスドメインシーケンスレコメンデーションを提案する。
論文参考訳（メタデータ） (2025-11-25T05:18:04Z)
DmC: Nearest Neighbor Guidance Diffusion Model for Offline Cross-domain Reinforcement Learning [11.290019540058625]
クロスドメインオフライン強化学習(RL)は、追加のオフラインソースデータセットを利用することで、サンプル効率の向上を目指している。 DmCは、限られたターゲットサンプルを持つクロスドメインオフラインRLのための新しいフレームワークである。
論文参考訳（メタデータ） (2025-07-28T03:34:15Z)
Cross-Domain Diffusion with Progressive Alignment for Efficient Adaptive Retrieval [52.67656818203429]
非教師付き効率的なドメイン適応検索は、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。既存のメソッドは、ターゲットドメインの潜在的なノイズに対処できず、ドメイン間で直接高レベルな機能を調整します。そこで本研究では,これらの課題に対処する新しいクロスドメイン拡散・プログレッシブアライメント法(COUPLE)を提案する。
論文参考訳（メタデータ） (2025-05-20T04:17:39Z)
xTED: Cross-Domain Adaptation via Diffusion-Based Trajectory Editing [21.37585797507323]
ドメイン間政策伝達手法は主に、ポリシー学習を容易にするために、ドメインの対応や修正を学習することを目的としている。本稿では,クロスドメイントラジェクトリ適応のために特別に設計された拡散モデルを用いたクロスドメイントラジェクトリ・EDitingフレームワークを提案する。提案するモデルアーキテクチャは,対象データ内の動的パターンだけでなく,状態,行動,報酬間の複雑な依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2024-09-13T10:07:28Z)
Adaptive Semantic Consistency for Cross-domain Few-shot Classification [27.176106714652327]
クロスドメイン・ショット分類(CD-FSC)は、いくつかのサンプルを用いて新規なターゲットクラスを特定することを目的としている。本稿では,ドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応セマンティック一貫性フレームワークを提案する。提案したASCは、ソースドメインの知識を明示的に伝達することで、モデルがターゲットドメインに過度に適合しないようにする。
論文参考訳（メタデータ） (2023-08-01T15:37:19Z)
Generalized One-shot Domain Adaption of Generative Adversarial Networks [72.84435077616135]
GAN(Generative Adversarial Network)の適応は、事前訓練されたGANを、限られたトレーニングデータを持つ特定のドメインに転送することを目的としている。我々は、ソースドメインからターゲットドメインへの適応を、テクスチャや色といったグローバルなスタイルの移行と、ソースドメインに属さない新しいエンティティの出現の2つの部分に分離できると考えている。我々の中核的な目的は、参照と合成の内部分布のギャップをワッサーシュタイン距離によって制限することである。
論文参考訳（メタデータ） (2022-09-08T09:24:44Z)
Source-Free Domain Adaptation via Distribution Estimation [106.48277721860036]
ドメイン適応は、ラベル付きソースドメインから学んだ知識を、データ分散が異なるラベル付きターゲットドメインに転送することを目的としています。近年,ソースフリードメイン適応 (Source-Free Domain Adaptation, SFDA) が注目されている。本研究では,SFDA-DEと呼ばれる新しいフレームワークを提案し,ソース分布推定によるSFDAタスクに対処する。
論文参考訳（メタデータ） (2022-04-24T12:22:19Z)
Contrastive Learning and Self-Training for Unsupervised Domain Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文参考訳（メタデータ） (2021-05-05T11:55:53Z)
Disentanglement-based Cross-Domain Feature Augmentation for Effective Unsupervised Domain Adaptive Person Re-identification [87.72851934197936]
Unsupervised Domain Adaptive (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインからラベル付きターゲットドメインへ知識を転送することを目的としている。ひとつの課題は、トレーニング用に信頼できるラベルでターゲットドメインサンプルを生成する方法だ。ディスタングルメントに基づくクロスドメイン機能拡張戦略を提案する。
論文参考訳（メタデータ） (2021-03-25T15:28:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。