論文の概要: Target-Aligned Bellman Backup for Cross-domain Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.22376v1
- Date: Thu, 21 May 2026 12:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 20:14:18.56168
- Title: Target-Aligned Bellman Backup for Cross-domain Offline Reinforcement Learning
- Title(参考訳): クロスドメインオフライン強化学習のための目標適応ベルマンバックアップ
- Authors: Wei Liu, Ting Long,
- Abstract要約: クロスドメインオフライン強化学習は、ソースドメインから収集したデータを活用することにより、ターゲットドメインにおけるポリシー学習を改善することを目的としている。
既存の研究は通常、ソース・ドメインデータの転送可能性を評価し、ターゲット・ドメインの遷移と類似度を測定し、暗黙的に遷移レベルの選択を行う。
本稿では、ターゲット領域における正確なベルマン目標推定への寄与を計測し、ソースドメインデータを選択的に活用するTarget-Aligned Bellman Backup (TABB) を提案する。
- 参考スコア(独自算出の注目度): 7.282517489507499
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain offline reinforcement learning (CDRL) aims to improve policy learning in a target domain by leveraging data collected from a source domain. Existing works typically assess the transferability of source-domain data by measuring its similarity to target-domain transitions, and implicitly perform transition-level selection. Transitions that are considered similar are assigned higher weights or rewards, while dissimilar ones are down-weighted. However, transition-level similarity does not necessarily imply consistency in long-term returns. Even visually or dynamically similar transitions may lead to significantly different outcomes in the target domain, which can mislead policy learning and degrade performance. To address this issue, we revisit the fundamental objective of policy learning. Since policy optimization ultimately relies on Bellman targets to evaluate the quality of decisions, we propose to assess the transferability of source-domain transitions based on their alignment with target-domain Bellman targets, rather than superficial transition similarity. Based on this insight, we propose a method termed Target-Aligned Bellman Backup (TABB), which selectively leverages source-domain data by measuring their contribution to accurate Bellman target estimation in the target domain. We evaluate TABB across a broad range of cross-domain offline RL settings with highly limited target-domain data. Experimental results show that TABB consistently achieves strong performance.
- Abstract(参考訳): クロスドメインオフライン強化学習(CDRL)は、ソースドメインから収集したデータを活用することにより、ターゲットドメインにおけるポリシー学習を改善することを目的としている。
既存の研究は通常、ソース・ドメインデータの転送可能性を評価し、ターゲット・ドメインの遷移と類似度を測定し、暗黙的に遷移レベルの選択を行う。
類似と見なされる遷移はより高い重みや報酬が割り当てられ、異種遷移は低い重みが付けられている。
しかし、トランジションレベルの類似性は、必ずしも長期的なリターンにおいて一貫性を暗示しない。
視覚的にも動的に類似した遷移であっても、ターゲット領域で大きく異なる結果をもたらす可能性があるため、政策学習を誤解させ、パフォーマンスを低下させる可能性がある。
この問題に対処するため、政策学習の基本的な目的を再考する。
政策最適化は最終的にベルマン目標に頼って意思決定の質を評価するため、表面的な遷移類似性ではなく、目標領域のベルマン目標との整合性に基づいてソース領域の遷移の伝達性を評価することを提案する。
この知見に基づいて、ターゲット領域における正確なベルマン目標推定への寄与を測定することにより、ソースドメインデータを選択的に活用するTABB(Target-Aligned Bellman Backup)手法を提案する。
ターゲットドメインデータに制限のある広範囲のクロスドメインオフラインRL設定におけるTABBの評価を行った。
実験の結果,TABBは高い性能を示すことがわかった。
関連論文リスト
- Cross-Domain Offline Policy Adaptation via Selective Transition Correction [29.251685312287155]
強化学習(RL)におけるミスマッチした力学を持つ領域をまたいだ政策の適応は依然として重要な課題である。
そこでは、他の類似ソースドメインからのオフラインデータセットにアクセスして、ターゲットドメインデータセットに対するポリシー学習を強化する。
本稿では,選択遷移補正 (STC) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2026-02-05T15:37:29Z) - Cross-Domain Diffusion with Progressive Alignment for Efficient Adaptive Retrieval [52.67656818203429]
非教師付き効率的なドメイン適応検索は、ラベル付きソースドメインからラベルなしターゲットドメインに知識を転送することを目的としている。
既存のメソッドは、ターゲットドメインの潜在的なノイズに対処できず、ドメイン間で直接高レベルな機能を調整します。
そこで本研究では,これらの課題に対処する新しいクロスドメイン拡散・プログレッシブアライメント法(COUPLE)を提案する。
論文 参考訳(メタデータ) (2025-05-20T04:17:39Z) - Adaptive Semantic Consistency for Cross-domain Few-shot Classification [27.176106714652327]
クロスドメイン・ショット分類(CD-FSC)は、いくつかのサンプルを用いて新規なターゲットクラスを特定することを目的としている。
本稿では,ドメイン間の堅牢性を向上する,シンプルなプラグアンドプレイ適応セマンティック一貫性フレームワークを提案する。
提案したASCは、ソースドメインの知識を明示的に伝達することで、モデルがターゲットドメインに過度に適合しないようにする。
論文 参考訳(メタデータ) (2023-08-01T15:37:19Z) - Self-training through Classifier Disagreement for Cross-Domain Opinion
Target Extraction [62.41511766918932]
オピニオンターゲット抽出(OTE)またはアスペクト抽出(AE)は意見マイニングの基本的な課題である。
最近の研究は、現実世界のシナリオでよく見られるクロスドメインのOTEに焦点を当てている。
そこで本稿では,ドメイン固有の教師と学生のネットワークから出力されるモデルが未学習のターゲットデータと一致しない対象サンプルを選択するためのSSLアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-28T16:31:17Z) - Instance Level Affinity-Based Transfer for Unsupervised Domain
Adaptation [74.71931918541748]
ILA-DAと呼ばれる適応中のソースからターゲットへの転送に対するインスタンス親和性に基づく基準を提案する。
まず、ソースとターゲットをまたいだ類似および異種サンプルを抽出し、マルチサンプルのコントラスト損失を利用してドメインアライメントプロセスを駆動する信頼性が高く効率的な手法を提案する。
ILA-DAの有効性は、様々なベンチマークデータセットに対する一般的なドメイン適応手法よりも精度が一貫した改善を観察することによって検証する。
論文 参考訳(メタデータ) (2021-04-03T01:33:14Z) - Disentanglement-based Cross-Domain Feature Augmentation for Effective
Unsupervised Domain Adaptive Person Re-identification [87.72851934197936]
Unsupervised Domain Adaptive (UDA) Person Re-identification (ReID) は、ラベル付きソースドメインからラベル付きターゲットドメインへ知識を転送することを目的としている。
ひとつの課題は、トレーニング用に信頼できるラベルでターゲットドメインサンプルを生成する方法だ。
ディスタングルメントに基づくクロスドメイン機能拡張戦略を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:28:41Z) - Discriminative Cross-Domain Feature Learning for Partial Domain
Adaptation [70.45936509510528]
部分的なドメイン適応は、より大きく多様なソースドメインからの知識を、より少ないクラス数でより小さなターゲットドメインに適応させることを目的としています。
ドメイン適応の最近の実践は、ターゲットドメインの擬似ラベルを組み込むことで、効果的な特徴を抽出する。
ターゲットデータを少数のソースデータのみにアライメントすることが不可欠である。
論文 参考訳(メタデータ) (2020-08-26T03:18:53Z) - Off-Dynamics Reinforcement Learning: Training for Transfer with Domain
Classifiers [138.68213707587822]
強化学習におけるドメイン適応のためのシンプルで実践的で直感的なアプローチを提案する。
報酬関数を変更することで、力学の違いを補うことで、この目標を達成することができることを示す。
我々のアプローチは、連続状態とアクションを持つドメインに適用でき、ダイナミックスの明示的なモデルを学ぶ必要がない。
論文 参考訳(メタデータ) (2020-06-24T17:47:37Z) - Unsupervised Domain Adaptive Object Detection using Forward-Backward
Cyclic Adaptation [13.163271874039191]
本稿では,フォワード・バック・サイクリック(FBC)トレーニングによる物体検出のための教師なし領域適応手法を提案する。
近年, 対角訓練に基づく領域適応法は, 限界特徴分布アライメントによる領域差最小化に有効であることが示された。
本稿では,後方ホッピングによるソースからターゲットへの適応と,前方通過によるターゲットからソースへの適応を反復的に計算するフォワード・バック・サイクル適応を提案する。
論文 参考訳(メタデータ) (2020-02-03T06:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。