論文の概要: Data Fusion-Enhanced Decision Transformer for Stable Cross-Domain Generalization
- arxiv url: http://arxiv.org/abs/2511.09173v1
- Date: Thu, 13 Nov 2025 01:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.446056
- Title: Data Fusion-Enhanced Decision Transformer for Stable Cross-Domain Generalization
- Title(参考訳): 安定なクロスドメイン一般化のためのデータ融合強化決定変換器
- Authors: Guojian Wang, Quinson Hon, Xuyang Chen, Lin Zhao,
- Abstract要約: ドメイン間のシフトは、決定トランスフォーマー(DT)ポリシーにとって大きな課題となる。
DFDT(Data Fusion-Enhanced Decision Transformer)を提案する。
DFDTは、少ないターゲットデータを選択的に信頼されたソースフラグメントで融合する。
その後、実現可能性に富んだ核融合を訓練する。
- 参考スコア(独自算出の注目度): 9.551673826707857
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-domain shifts present a significant challenge for decision transformer (DT) policies. Existing cross-domain policy adaptation methods typically rely on a single simple filtering criterion to select source trajectory fragments and stitch them together. They match either state structure or action feasibility. However, the selected fragments still have poor stitchability: state structures can misalign, the return-to-go (RTG) becomes incomparable when the reward or horizon changes, and actions may jump at trajectory junctions. As a result, RTG tokens lose continuity, which compromises DT's inference ability. To tackle these challenges, we propose Data Fusion-Enhanced Decision Transformer (DFDT), a compact pipeline that restores stitchability. Particularly, DFDT fuses scarce target data with selectively trusted source fragments via a two-level data filter, maximum mean discrepancy (MMD) mismatch for state-structure alignment, and optimal transport (OT) deviation for action feasibility. It then trains on a feasibility-weighted fusion distribution. Furthermore, DFDT replaces RTG tokens with advantage-conditioned tokens, which improves the continuity of the semantics in the token sequence. It also applies a $Q$-guided regularizer to suppress junction value and action jumps. Theoretically, we provide bounds that tie state value and policy performance gaps to the MMD-mismatch and OT-deviation measures, and show that the bounds tighten as these two measures shrink. We show that DFDT improves return and stability over strong offline RL and sequence-model baselines across gravity, kinematic, and morphology shifts on D4RL-style control tasks, and further corroborate these gains with token-stitching and sequence-semantics stability analyses.
- Abstract(参考訳): ドメイン間のシフトは、決定トランスフォーマー(DT)ポリシーにとって大きな課題となる。
既存のクロスドメインポリシー適応手法は、典型的には単一の単純なフィルタリング基準に依存して、ソースの軌跡を選別し、それらを縫合する。
それらは状態構造か行動実現可能性のいずれかに一致する。
しかし、選択された断片は縫合性に乏しく、状態構造はミスアライグでき、報酬や地平線が変化するとリターン・トゥ・ゴー(RTG)は相容れない。
その結果、RTGトークンは連続性を失い、DTの推論能力を損なう。
これらの課題に対処するため、縫合性を回復するコンパクトパイプラインであるData Fusion-Enhanced Decision Transformer (DFDT)を提案する。
特に、DFDTは、2レベルデータフィルタ、状態構造アライメントのための最大平均不一致(MMD)ミスマッチ、アクション実現性のための最適輸送(OT)偏差により、少ないターゲットデータを選択的に信頼されたソースフラグメントで融合する。
その後、実現可能性に富んだ核融合を訓練する。
さらに、DFDTはRTGトークンをアドバンテージ条件付きトークンに置き換え、トークンシーケンスにおけるセマンティクスの連続性を改善する。
また、ジャンクション値とアクションジャンプを抑えるために$Q$-guided regularizerを適用する。
理論的には、状態値と政策性能のギャップをMDDミスマッチとOT緩和の尺度に結びつける境界を提供し、これらの2つの尺度が縮小するにつれて境界が固まることを示す。
DFDTは,D4RLスタイルの制御タスクにおいて,強いオフラインRLおよびシークエンスモデルベースラインに対するリターンと安定性を向上し,さらにトークンストレッチやシーケンスセマンティックス安定性解析と相関することを示す。
関連論文リスト
- Diffusion-Driven Progressive Target Manipulation for Source-Free Domain Adaptation [108.0345347464393]
ソースフリードメイン適応(SFDA)は、トレーニング済みのソースモデルとラベルなしのターゲットデータのみを使用して、ドメインシフトに取り組む、困難なタスクである。
非世代SFDA法は、大きなドメイン不一致を伴う挑戦的なシナリオにおいて、信頼性の低い擬似ラベルに悩まされる。
拡散駆動プログレッシブターゲットマニピュレーションという,新しい世代ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-29T08:38:03Z) - DiBS-MTL: Transformation-Invariant Multitask Learning with Direction Oracles [20.925878778939083]
マルチタスク学習(MTL)アルゴリズムは、通常、異なるタスク損失または重み付き平均化による勾配を組み合わせたスキームに依存する。
このような場合、タスクの損失を任意にスケールできるため、中心的な課題が発生する。
非MTL設定におけるDiBSの収束挙動は理解されていないことを示す。
論文 参考訳(メタデータ) (2025-09-28T15:57:06Z) - Bridging the Reality Gap in Digital Twins with Context-Aware, Physics-Guided Deep Learning [3.0996501197166975]
デジタルツイン(DT)は強力な予測分析を可能にするが、シミュレーションと実際のシステムの相違 - 現実のギャップとして知られ、信頼性を損なう。
本稿では,新しいセンサデータを連続的に統合し,誤りを検知し,クエリ応答フレームワークを介してDTを再検討する,DTのためのReal Gap Analysis(RGA)モジュールを提案する。
提案手法は,コンテキスト推論の改善と物理的整合性維持のために,ドメイン・アドバイサル深層学習と低次シミュレータ誘導を融合する。
論文 参考訳(メタデータ) (2025-05-17T05:18:46Z) - Fractional Correspondence Framework in Detection Transformer [13.388933240897492]
Detection Transformer (DETR) はオブジェクト検出タスクのマッチングプロセスを大幅に単純化した。
このアルゴリズムは、予測された有界箱とトレーニング中の接地的アノテーションとの最適な1対1マッチングを容易にする。
本稿では,予測と地上の真実を整合させるコストを捉え,最も正確な対応を見つけるためのフレキシブルマッチング戦略を提案する。
論文 参考訳(メタデータ) (2025-03-06T05:29:20Z) - Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Semi-DETR: Semi-Supervised Object Detection with Detection Transformers [105.45018934087076]
半教師付き物体検出(SSOD)におけるDETRに基づくフレームワークの解析
本報告では,第1次変圧器を用いたエンド・ツー・エンド半教師対象検出器であるSemi-DETRについて述べる。
我々の手法は、最先端の手法をクリアマージンで上回る。
論文 参考訳(メタデータ) (2023-07-16T16:32:14Z) - Uncertainty-Aware Source-Free Adaptive Image Super-Resolution with Wavelet Augmentation Transformer [60.31021888394358]
Unsupervised Domain Adaptation (UDA)は、現実世界の超解像(SR)における領域ギャップ問題に効果的に対処できる
本稿では,画像SR(SODA-SR)のためのSOurce-free Domain Adaptationフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-31T03:14:44Z) - Deep Metric Learning for Unsupervised Remote Sensing Change Detection [60.89777029184023]
リモートセンシング変化検出(RS-CD)は、マルチテンポラルリモートセンシング画像(MT-RSI)から関連する変化を検出することを目的とする。
既存のRS-CD法の性能は、大規模な注釈付きデータセットのトレーニングによるものである。
本稿では,これらの問題に対処可能なディープメトリック学習に基づく教師なしCD手法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:52:45Z) - Generalized Decision Transformer for Offline Hindsight Information
Matching [16.7594941269479]
本稿では、後視情報マッチング(HIM)問題を解くための一般化決定変換器(GDT)を提案する。
特徴関数と反因果アグリゲータの異なる選択が, 将来の異なる統計値に適合する新しいカテゴリーDT (CDT) と双方向DT (BDT) にどのように寄与するかを示す。
論文 参考訳(メタデータ) (2021-11-19T18:56:13Z) - Comparing Probability Distributions with Conditional Transport [63.11403041984197]
新しい発散として条件輸送(CT)を提案し、償却されたCT(ACT)コストと近似します。
ACTは条件付き輸送計画の計算を補正し、計算が容易な非バイアスのサンプル勾配を持つ。
さまざまなベンチマークデータセットのジェネレーティブモデリングでは、既存のジェネレーティブ敵対ネットワークのデフォルトの統計距離をACTに置き換えることで、一貫してパフォーマンスを向上させることが示されています。
論文 参考訳(メタデータ) (2020-12-28T05:14:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。