Fugu-MT 論文翻訳(概要): DeeP-Mod: Deep Dynamic Programming based Environment Modelling using Feature Extraction

論文の概要: DeeP-Mod: Deep Dynamic Programming based Environment Modelling using Feature Extraction

arxiv url: http://arxiv.org/abs/2504.20535v1
Date: Tue, 29 Apr 2025 08:30:11 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.811661
Title: DeeP-Mod: Deep Dynamic Programming based Environment Modelling using Feature Extraction
Title（参考訳）: DeeP-Mod:特徴抽出を用いた動的プログラミングに基づく環境モデリング
Authors: Chris Child, Lam Ngo,
Abstract要約: DeeP-Modフレームワークは、Deep Dynamic Programming Network (DDPN)の機能を使って環境モデルを構築する。 DDPNから機能を抽出することは、状態情報を保持し、タスクとアクションセットの独立を可能にする。 DeeP-Modフレームワークは、アクションに応じてDDPNから抽出された機能の進化を利用した環境モデルを作成する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The DeeP-Mod framework builds an environment model using features from a Deep Dynamic Programming Network (DDPN), trained via a Deep Q-Network (DQN). While Deep Q-Learning is effective in decision-making, state information is lost in deeper DQN layers due to mixed state-action representations. We address this by using Dynamic Programming (DP) to train a DDPN, where Value Iteration ensures the output represents state values, not state-action pairs. Extracting features from the DDPN preserves state information, enabling task and action set independence. We show that a reduced DDPN can be trained using features extracted from the original DDPN trained on an identical problem. This reduced DDPN achieves faster convergence under noise and outperforms the original DDPN. Finally, we introduce the DeeP-Mod framework, which creates an environment model using the evolution of features extracted from a DDPN in response to actions. A second DDPN, which learns directly from this feature model rather than raw states, can learn an effective feature-value representation and thus optimal policy. A key advantage of DeeP-Mod is that an externally defined environment model is not needed at any stage, making DDPN applicable to a wide range of environments.
Abstract（参考訳）: DeeP-Modフレームワークは、Deep Dynamic Programming Network (DDPN)の機能を使って環境モデルを構築し、Deep Q-Network (DQN)を介してトレーニングする。ディープQラーニングは意思決定に有効であるが、状態-アクションの混合表現により、ディープDQN層では状態情報が失われる。我々は、動的プログラミング(DP)を使用してDDPNをトレーニングし、そこでは、値イテレーションが状態-作用ペアではなく、出力が状態値を表すことを保証します。 DDPNから機能を抽出することは、状態情報を保持し、タスクとアクションセットの独立を可能にする。そこで本研究では,DDPNを縮小したDDPNを,同一の問題について訓練したオリジナルのDDPNから抽出した特徴を用いて訓練できることを示す。この縮小DDPNはノイズ下での高速収束を実現し、元のDDPNより優れる。最後に,動作に応じてDDPNから抽出した特徴の進化を利用して環境モデルを作成するDeeP-Modフレームワークを紹介する。生の状態ではなく、この特徴モデルから直接学習する第2のDDPNは、効果的な特徴値表現、すなわち最適なポリシーを学ぶことができる。 DeeP-Modの重要な利点は、外部で定義された環境モデルがどの段階でも必要ないことである。

関連論文リスト

SPPD: Self-training with Process Preference Learning Using Dynamic Value Margin [16.346540681903804]
我々はtextbfDynamic value margin (SPPD) を用いた textbfProcess textbfPreference Learning を統合した textbfSelf-training フレームワークを提案する。 7Bスケールモデルの実験は、ドメイン内およびドメイン外の数学ベンチマークで優れた性能を示す。
論文参考訳（メタデータ） (2025-02-19T08:11:26Z)
DyFADet: Dynamic Feature Aggregation for Temporal Action Detection [70.37707797523723]
カーネル重みと受容フィールドを異なるタイムスタンプで適応できる新しい動的特徴集約(DFA)モジュールを構築した。 DFAを使用することで動的DADヘッド(DyHead)の開発を支援し、パラメータを調整したマルチスケール機能を適応的に集約する。新しい動的TADモデルであるDyFADetは、一連の挑戦的なTADベンチマークで有望なパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-03T15:29:10Z)
Inferring Data Preconditions from Deep Learning Models for Trustworthy Prediction in Deployment [25.527665632625627]
デプロイ中に見つからないデータを使って、モデルの予測の信頼性を判断することが重要です。従来のソフトウェアを特定し検証する既存の方法は、このタスクには不十分である。本稿では、ニューラルネットワーク計算から導出されるルールを用いて、データ前提条件を推論する新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-26T03:47:18Z)
Effective Learning with Node Perturbation in Multi-Layer Neural Networks [2.1168858935852013]
node perturbation (NP) は、ネットワークアクティベーションにノイズを注入することで学習を提案する。 NPは、非誘導ノイズに基づく探索プロセスのため、データ非効率で不安定である。各層での入力デコリレーションと指向性デリバティブとの密接なアライメントはNP学習の性能を強く向上させる。
論文参考訳（メタデータ） (2023-10-02T08:12:51Z)
FedDIP: Federated Learning with Extreme Dynamic Pruning and Incremental Regularization [5.182014186927254]
大規模Deep Neural Networks(DNN)の分散トレーニングと推論にFL(Federated Learning)が成功している。我々は、(i)動的プルーニングとエラーフィードバックを組み合わせて冗長な情報交換を排除する新しいFLフレームワーク(Coined FedDIP)にコントリビュートする。我々は、FedDIPの収束解析と総合的な性能について報告し、最先端手法との比較評価を行う。
論文参考訳（メタデータ） (2023-09-13T08:51:19Z)
Adaptive Growth: Real-time CNN Layer Expansion [0.0]
本研究では,データ入力に基づいて,畳み込みニューラルネットワーク(CNN)の畳み込み層を動的に進化させるアルゴリズムを提案する。厳密なアーキテクチャの代わりに、我々のアプローチはカーネルを畳み込み層に反復的に導入し、様々なデータに対してリアルタイムに応答する。興味深いことに、我々の教師なしの手法は、さまざまなデータセットにまたがって教師なしの手法を上回った。
論文参考訳（メタデータ） (2023-09-06T14:43:58Z)
Vecchia Gaussian Process Ensembles on Internal Representations of Deep Neural Networks [2.186901738997927]
レグレッションタスクでは、標準ガウス過程(GP)とディープニューラルネットワーク(DNN)が自然不確実性定量化(UQ)を提供する。本稿では,DVE(Deep Vecchia ensemble)という代替手法を提案する。 DVEは事前訓練されたネットワークと互換性があり、計算オーバーヘッドが低い。
論文参考訳（メタデータ） (2023-05-26T16:19:26Z)
DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。 DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。 DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文参考訳（メタデータ） (2023-03-30T17:26:50Z)
Versatile Neural Processes for Learning Implicit Neural Representations [57.090658265140384]
本稿では,近似関数の能力を大幅に向上させるVersatile Neural Processs (VNP)を提案する。具体的には、より少ない情報的コンテキストトークンを生成するボトルネックエンコーダを導入し、高い計算コストを軽減した。提案したVNPが1D, 2D, 3D信号を含む様々なタスクに対して有効であることを示す。
論文参考訳（メタデータ） (2023-01-21T04:08:46Z)
Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。我々の手法は古典的DPベースの推論に広く適用できる。また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文参考訳（メタデータ） (2021-12-07T11:26:41Z)
Dynamic Convolution for 3D Point Cloud Instance Segmentation [146.7971476424351]
動的畳み込みに基づく3次元点雲からのインスタンスセグメンテーション手法を提案する。我々は、同じ意味圏と閉投票を持つ等質点を幾何学的遠近点に対して収集する。提案手法は提案不要であり、代わりに各インスタンスの空間的および意味的特性に適応する畳み込みプロセスを利用する。
論文参考訳（メタデータ） (2021-07-18T09:05:16Z)
Defense against Adversarial Attacks in NLP via Dirichlet Neighborhood Ensemble [163.3333439344695]
Dirichlet Neighborhood Ensemble (DNE) は、ロバストモデルを用いて置換攻撃を防御するランダムな平滑化手法である。 DNEは、単語とその同義語で区切られた凸殻から入力文中の各単語の埋め込みベクトルをサンプリングして仮想文を生成し、訓練データでそれらを増強する。我々は,提案手法が最近提案した防衛手法を,異なるネットワークアーキテクチャと複数のデータセット間で有意差で一貫して上回っていることを示す。
論文参考訳（メタデータ） (2020-06-20T18:01:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。