論文の概要: Semi-Supervised Cross-Domain Imitation Learning
- arxiv url: http://arxiv.org/abs/2602.10793v1
- Date: Wed, 11 Feb 2026 12:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:01.855645
- Title: Semi-Supervised Cross-Domain Imitation Learning
- Title(参考訳): 半監督型クロスドメイン模倣学習
- Authors: Li-Min Chu, Kai-Siang Ma, Ming-Hong Chen, Ping-Chun Hsieh,
- Abstract要約: クロスドメイン模倣学習(CDIL)は、専門知識をドメイン間で伝達することで、政策学習を促進する。
本稿では,Semi-Supervised CDIL設定を導入し,SS-CDILの最初のアルゴリズムを提案する。
我々のアプローチは、最小限の監督で安定かつデータ効率の政策学習を実現する。
- 参考スコア(独自算出の注目度): 9.740139304952615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain imitation learning (CDIL) accelerates policy learning by transferring expert knowledge across domains, which is valuable in applications where the collection of expert data is costly. Existing methods are either supervised, relying on proxy tasks and explicit alignment, or unsupervised, aligning distributions without paired data, but often unstable. We introduce the Semi-Supervised CDIL (SS-CDIL) setting and propose the first algorithm for SS-CDIL with theoretical justification. Our method uses only offline data, including a small number of target expert demonstrations and some unlabeled imperfect trajectories. To handle domain discrepancy, we propose a novel cross-domain loss function for learning inter-domain state-action mappings and design an adaptive weight function to balance the source and target knowledge. Experiments on MuJoCo and Robosuite show consistent gains over the baselines, demonstrating that our approach achieves stable and data-efficient policy learning with minimal supervision. Our code is available at~ https://github.com/NYCU-RL-Bandits-Lab/CDIL.
- Abstract(参考訳): クロスドメイン模倣学習(CDIL)は、専門家の知識をドメイン間で伝達することで、ポリシー学習を加速する。
既存のメソッドは、プロキシタスクと明示的なアライメントに依存するか、あるいは、ペアデータなしで分散を調整しないが、不安定な場合が多い。
そこで我々は,Semi-Supervised CDIL (SS-CDIL) 設定を導入し,理論的な正当性を持つSS-CDILのアルゴリズムを提案する。
本手法では,少数の専門家による実験や未ラベルの不完全な軌道を含むオフラインデータのみを用いる。
ドメイン間の状態-動作マッピングを学習し、ソースとターゲットの知識のバランスをとるために適応重み関数を設計するための、ドメイン間の整合性に対処する新しいクロスドメイン損失関数を提案する。
MuJoCoとRobosuiteの実験はベースラインよりも一貫した利得を示し、我々のアプローチが最小限の監督で安定かつデータ効率の政策学習を実現することを実証した。
私たちのコードはhttps://github.com/NYCU-RL-Bandits-Lab/CDILで利用可能です。
関連論文リスト
- Test-Time Domain Adaptation by Learning Domain-Aware Batch Normalization [39.14048972373775]
テストタイムドメイン適応は、ソースドメインでトレーニングされたモデルを、ラベルのないいくつかのイメージを使用して、未表示のターゲットドメインに適応することを目的としている。
従来の作業は通常、ラベルとドメイン間の知識を明示的に分離することなく、ネットワーク全体をナビゲート的に更新する。
本稿では,BN層のみを操作することにより,そのような学習の干渉を低減し,ドメイン知識の学習を高めることを提案する。
論文 参考訳(メタデータ) (2023-12-15T19:22:21Z) - CDFSL-V: Cross-Domain Few-Shot Learning for Videos [58.37446811360741]
ビデオのアクション認識は、いくつかのラベル付き例でのみ、新しいカテゴリを認識するための効果的なアプローチである。
既存のビデオアクション認識の方法は、同じドメインからの大きなラベル付きデータセットに依存している。
本稿では,自己教師付き学習とカリキュラム学習を活用した,クロスドメインな数ショットビデオ行動認識手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T19:44:27Z) - Divide and Contrast: Source-free Domain Adaptation via Adaptive
Contrastive Learning [122.62311703151215]
Divide and Contrast (DaC) は、それぞれの制限を回避しつつ、両方の世界の善良な端を接続することを目的としている。
DaCは、ターゲットデータをソースライクなサンプルとターゲット固有なサンプルに分割する。
さらに、ソースライクなドメインと、メモリバンクベースの最大平均離散性(MMD)損失を用いて、ターゲット固有のサンプルとを整合させて、分散ミスマッチを低減する。
論文 参考訳(メタデータ) (2022-11-12T09:21:49Z) - Learning Across Domains and Devices: Style-Driven Source-Free Domain
Adaptation in Clustered Federated Learning [32.098954477227046]
本稿では,クライアントのデータをラベル付けせず,サーバが事前学習のためにラベル付きデータセットにアクセスする新しいタスクを提案する。
実験の結果,我々のアルゴリズムは既存の手法よりも効率よく新しい課題に取り組むことができることがわかった。
論文 参考訳(メタデータ) (2022-10-05T15:23:52Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Low-confidence Samples Matter for Domain Adaptation [47.552605279925736]
ドメイン適応(DA)は、知識をラベルの豊富なソースドメインから関連するがラベルの少ないターゲットドメインに転送することを目的としている。
低信頼度サンプルの処理による新しいコントラスト学習法を提案する。
提案手法を教師なしと半教師付きの両方のDA設定で評価する。
論文 参考訳(メタデータ) (2022-02-06T15:45:45Z) - Cross-domain Contrastive Learning for Unsupervised Domain Adaptation [108.63914324182984]
教師なしドメイン適応(Unsupervised domain adapt、UDA)は、完全にラベル付けされたソースドメインから異なるラベル付けされていないターゲットドメインに学習した知識を転送することを目的としている。
対照的な自己教師型学習に基づいて、トレーニングとテストセット間のドメインの相違を低減するために、機能を整列させます。
論文 参考訳(メタデータ) (2021-06-10T06:32:30Z) - Contrastive Learning and Self-Training for Unsupervised Domain
Adaptation in Semantic Segmentation [71.77083272602525]
UDAはラベル付きソースドメインからラベルなしターゲットドメインへの効率的な知識伝達を試みている。
本稿では,領域にまたがるカテゴリ別センタロイドを適応させるコントラスト学習手法を提案する。
提案手法を自己学習で拡張し,メモリ効率の良い時間アンサンブルを用いて一貫性と信頼性の高い擬似ラベルを生成する。
論文 参考訳(メタデータ) (2021-05-05T11:55:53Z) - Prototypical Cross-domain Self-supervised Learning for Few-shot
Unsupervised Domain Adaptation [91.58443042554903]
FUDA(Unsupervised Domain Adaptation)のためのPCS(Prototypical Cross-Domain Self-Supervised Learning)フレームワークを提案する。
PCSは、クロスドメインのローレベルな機能アライメントを行うだけでなく、ドメイン間の共有埋め込み空間におけるセマンティック構造をエンコードおよびアライメントする。
最新の手法と比較して、pcsは、fuda上の異なるドメインペアの平均分類精度を10.5%、office、office-home、visda-2017、domainnetで3.5%、9.0%、13.2%改善している。
論文 参考訳(メタデータ) (2021-03-31T02:07:42Z) - Cross-domain few-shot learning with unlabelled data [1.2183405753834562]
データ不足問題を解決するためのショット学習はほとんどありません。
対象ドメインのラベルなしデータを新たに設定することを提案する。
ラベル付き学習セットとラベルなし学習セットの知識を十分に活用するための自己教師付き学習手法を考案した。
論文 参考訳(メタデータ) (2021-01-19T23:41:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。