論文の概要: A Controlled Study of Double DQN and Dueling DQN Under Cross-Environment Transfer
- arxiv url: http://arxiv.org/abs/2602.09810v1
- Date: Tue, 10 Feb 2026 14:18:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.573829
- Title: A Controlled Study of Double DQN and Dueling DQN Under Cross-Environment Transfer
- Title(参考訳): クロス環境移動下における二重DQNと二重DQNの制御に関する研究
- Authors: Azka Nasir, Fatima Dossa, Muhammad Ahmed Atif, Mohammad Ahmed Atif,
- Abstract要約: 本稿では,DQN(Double Deep Q-Networks)とDQN(Dueling DQN)とのアーキテクチャ的差異について検討する。
実験の結果,DDQNは検査条件下での負の移動を一貫して避けていることがわかった。
デューリングDQNは、劣化した報酬と不安定な最適化挙動を特徴とする、同一条件下での負の転移を一貫して示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning in deep reinforcement learning is often motivated by improved stability and reduced training cost, but it can also fail under substantial domain shift. This paper presents a controlled empirical study examining how architectural differences between Double Deep Q-Networks (DDQN) and Dueling DQN influence transfer behavior across environments. Using CartPole as a source task and LunarLander as a structurally distinct target task, we evaluate a fixed layer-wise representation transfer protocol under identical hyperparameters and training conditions, with baseline agents trained from scratch used to contextualize transfer effects. Empirical results show that DDQN consistently avoids negative transfer under the examined setup and maintains learning dynamics comparable to baseline performance in the target environment. In contrast, Dueling DQN consistently exhibits negative transfer under identical conditions, characterized by degraded rewards and unstable optimization behavior. Statistical analysis across multiple random seeds confirms a significant performance gap under transfer. These findings suggest that architectural inductive bias is strongly associated with robustness to cross-environment transfer in value-based deep reinforcement learning under the examined transfer protocol.
- Abstract(参考訳): 深層強化学習におけるトランスファーラーニングは、安定性の向上とトレーニングコストの削減によって動機づけられることが多いが、ドメインシフトによって失敗することもある。
本稿では,DQN(Double Deep Q-Networks, DDQN)とDQN(Dueling DQN)とのアーキテクチャ的差異が環境間の伝達挙動に与える影響について検討した。
CartPoleをソースタスクとして、LunarLanderを構造的に異なるターゲットタスクとして使用し、同一のハイパーパラメータとトレーニング条件下での固定層ワイド表現転送プロトコルを、スクラッチからトレーニングしたベースラインエージェントを用いて評価した。
実験結果から,DDQNは検査条件下での負の移動を一貫して回避し,目標環境におけるベースライン性能に匹敵する学習ダイナミクスを維持していることがわかった。
対照的に、デュアリングDQNは、劣化した報酬と不安定な最適化挙動を特徴とする、同一条件下での負の転移を一貫して示している。
複数のランダムシードの統計的解析は、転送中の顕著なパフォーマンスギャップを裏付ける。
これらの結果から, アーキテクチャ帰納的バイアスは, 検証された伝達プロトコルの下での値に基づく深層強化学習において, クロス環境移行に対する堅牢性と強く関連していることが示唆された。
関連論文リスト
- Identifying and Transferring Reasoning-Critical Neurons: Improving LLM Inference Reliability via Activation Steering [50.63386303357225]
本稿では,ニューロンの活性化に選択的に介入することで推論信頼性を向上させる軽量なテストタイムフレームワークであるAdaRASを提案する。
AdaRASは、極性を意識した平均差基準を介してReasoning-Critical Neurons(RCN)を特定し、推論中にアクティベーションを適応的に制御する。
10の数学およびコーディングベンチマークの実験では、AIME-24とAIME-25の13%以上のゲインを含む一貫した改善が示されている。
論文 参考訳(メタデータ) (2026-01-27T17:53:01Z) - FAST: Similarity-based Knowledge Transfer for Efficient Policy Learning [57.4737157531239]
Transfer Learningは、タスク間で知識を伝達することで学習を加速する能力を提供する。
これは、負の転送、ドメイン適応、ソリッドソースポリシーの選択における非効率といった重要な課題に直面します。
本研究では,知識伝達の改善,タスク間のパフォーマンスの促進,計算コストの削減など,TLの課題に挑戦する。
論文 参考訳(メタデータ) (2025-07-27T22:21:53Z) - Non-asymptotic Convergence of Training Transformers for Next-token Prediction [48.9399496805422]
トランスフォーマーは、シーケンシャルなデータを扱う優れた能力のために、現代の機械学習において驚くべき成功を収めています。
本稿では, 単層変圧器のトレーニング力学の微細な非漸近解析を行う。
トレーニングされたトランスフォーマーは,データセットシフトによる非トーケン予測能力を示すことを示す。
論文 参考訳(メタデータ) (2024-09-25T20:22:06Z) - Robust Transfer Learning with Unreliable Source Data [11.813197709246289]
対象関数とソース回帰関数との差を測定する「あいまい度レベル」と呼ばれる新しい量を導入する。
本稿では, 簡単な伝達学習手法を提案し, この新しい量が学習の伝達可能性にどのように関係しているかを示す一般的な定理を確立する。
論文 参考訳(メタデータ) (2023-10-06T21:50:21Z) - Why Does Little Robustness Help? A Further Step Towards Understanding Adversarial Transferability [23.369773251447636]
DNNの逆例(AE)は転送可能であることが示されている。
本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出す。
論文 参考訳(メタデータ) (2023-07-15T19:20:49Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Frustratingly Easy Transferability Estimation [64.42879325144439]
本稿では,TransRate という,シンプルで効率的かつ効果的な転送可能性尺度を提案する。
TransRateは、事前訓練されたモデルによって抽出された対象サンプルの特徴とそれらのラベルとの間の相互情報として、転送可能性を測定する。
10行のコードで並外れた単純さにもかかわらず、TransRateは、22の事前訓練されたモデルと16のダウンストリームタスクに対する広範囲な評価において、非常にうまく機能している。
論文 参考訳(メタデータ) (2021-06-17T10:27:52Z) - CARTL: Cooperative Adversarially-Robust Transfer Learning [22.943270371841226]
ディープラーニングでは、トランスファーラーニングの典型的な戦略は、事前訓練されたモデルの初期のレイヤを凍結し、ターゲットドメイン上の残りのレイヤを微調整することである。
本稿では,特徴距離の最小化によるモデル事前学習と,対象領域タスクに対する非拡張的微調整による事前学習により,協調的逆転変換学習(CARTL)を提案する。
論文 参考訳(メタデータ) (2021-06-12T02:29:55Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。