Fugu-MT 論文翻訳(概要): XLVIN: eXecuted Latent Value Iteration Nets

論文の概要: XLVIN: eXecuted Latent Value Iteration Nets

arxiv url: http://arxiv.org/abs/2010.13146v2
Date: Sun, 6 Dec 2020 16:59:01 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-03 04:13:57.638189
Title: XLVIN: eXecuted Latent Value Iteration Nets
Title（参考訳）: xlvin: 潜在価値イテレーションネットの実行
Authors: Andreea Deac, Petar Veli\v{c}kovi\'c, Ognjen Milinkovi\'c, Pierre-Luc Bacon, Jian Tang, Mladen Nikoli\'c
Abstract要約: VIN(Value Iteration Networks)は、深い強化学習に計画アルゴリズムを組み込む一般的な手法として登場した。提案するXLVINは, 対照的な自己教師付き学習, グラフ表現学習, ニューラルアルゴリズム推論にまたがる最近の発展を総合して提案する。
参考スコア（独自算出の注目度）: 17.535799331279417
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Value Iteration Networks (VINs) have emerged as a popular method to incorporate planning algorithms within deep reinforcement learning, enabling performance improvements on tasks requiring long-range reasoning and understanding of environment dynamics. This came with several limitations, however: the model is not incentivised in any way to perform meaningful planning computations, the underlying state space is assumed to be discrete, and the Markov decision process (MDP) is assumed fixed and known. We propose eXecuted Latent Value Iteration Networks (XLVINs), which combine recent developments across contrastive self-supervised learning, graph representation learning and neural algorithmic reasoning to alleviate all of the above limitations, successfully deploying VIN-style models on generic environments. XLVINs match the performance of VIN-like models when the underlying MDP is discrete, fixed and known, and provides significant improvements to model-free baselines across three general MDP setups.
Abstract（参考訳）: バリューイテレーションネットワーク(vins)は、深層強化学習に計画アルゴリズムを組み込む一般的な方法として登場し、長距離推論と環境ダイナミクスの理解を必要とするタスクのパフォーマンス改善を可能にしている。しかし、このモデルは有意義な計画計算の実行にインセンティブを与えられず、基礎となる状態空間は離散的であると仮定され、マルコフ決定過程(MDP)は固定され、知られていると仮定される。提案するeXecuted Latent Value Iteration Networks (XLVINs) は, 対照的な自己教師付き学習, グラフ表現学習, ニューラルネットワーク推論を対象とし, 上記の制限をすべて緩和し, VINスタイルのモデルを汎用環境に展開することに成功した。 XLVINは、基礎となるMDPが離散的、固定的、既知のときにVINライクなモデルのパフォーマンスと一致し、3つの一般的なMDPセットアップでモデルフリーのベースラインを大幅に改善する。

関連論文リスト

Deep Hierarchical Learning with Nested Subspace Networks [53.71337604556311]
大規模ニューラルネットワークのためのNested Subspace Networks (NSN)を提案する。 NSNは、単一のモデルを連続した計算予算の範囲で動的かつきめ細かな調整を可能にする。我々は,NSNを訓練済みのLLMに外科的に適用し,スムーズで予測可能な計算性能フロンティアを解き放つことができることを示した。
論文参考訳（メタデータ） (2025-09-22T15:13:14Z)
Towards Efficient General Feature Prediction in Masked Skeleton Modeling [59.46799426434277]
マスクスケルトンモデリングのための新しい汎用特徴予測フレームワーク(GFP)を提案する。我々の重要な革新は、局所的な動きパターンからグローバルな意味表現にまたがる、従来の低レベルな再構築を高レベルな特徴予測に置き換えることです。
論文参考訳（メタデータ） (2025-09-03T18:05:02Z)
FMIP: Joint Continuous-Integer Flow For Mixed-Integer Linear Programming [52.52020895303244]
Mixed-Integer Linear Programming (MILP)は、複雑な意思決定問題の基本的なツールである。混合整数線形計画法(FMIP)のための連立連続整数フローを提案する。これはMILPソリューションにおける整数変数と連続変数の共分散をモデル化する最初の生成フレームワークである。 FMIPは任意のバックボーンネットワークや様々なダウンストリームソルバと完全に互換性があり、現実世界のMILPアプリケーションにも適している。
論文参考訳（メタデータ） (2025-07-31T10:03:30Z)
Privacy-Aware Joint DNN Model Deployment and Partitioning Optimization for Collaborative Edge Inference Services [14.408050197587654]
エッジ推論(EI)は、クラウドベースのDeep Neural Network(DNN)推論サービスの増加に対処する、有望なパラダイムとして登場した。リソース制約のあるエッジデバイスにDNNモデルをデプロイすることは、制限/ストレージリソース、動的サービス要求、プライバシーリスクの増大など、さらなる課題をもたらす。本稿では,DNNモデルデプロイメント,ユーザサーバアソシエーション,モデルパーティショニングを共同で扱う,新たなプライバシ対応最適化フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-22T05:27:24Z)
DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。 LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2025-02-18T02:37:26Z)
HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Optimization of geological carbon storage operations with multimodal latent dynamic model and deep reinforcement learning [1.8549313085249324]
本稿では,高速フロー予測とGCSの制御最適化のためのディープラーニングフレームワークであるMLDモデルを紹介する。既存のモデルとは異なり、MDDは多様な入力モダリティをサポートし、包括的なデータインタラクションを可能にする。この手法は従来の手法よりも優れており、計算資源を60%以上削減し、最も高いNPVを達成する。
論文参考訳（メタデータ） (2024-06-07T01:30:21Z)
LoRA-Ensemble: Efficient Uncertainty Modelling for Self-attention Networks [52.46420522934253]
本稿では,自己注意ネットワークのためのパラメータ効率の高いディープアンサンブル手法であるLoRA-Ensembleを紹介する。全メンバー間で重みを共有できる1つの事前学習型自己注意ネットワークを利用することで、注意投影のために、メンバー固有の低ランク行列を訓練する。提案手法は明示的なアンサンブルよりも優れたキャリブレーションを示し,様々な予測タスクやデータセットに対して類似あるいは良好な精度を実現する。
論文参考訳（メタデータ） (2024-05-23T11:10:32Z)
Learning Logic Specifications for Policy Guidance in POMDPs: an Inductive Logic Programming Approach [57.788675205519986]
我々は任意の解法によって生成されるPOMDP実行から高品質なトレースを学習する。我々は、データと時間効率のIndu Logic Programming(ILP)を利用して、解釈可能な信念に基づくポリシー仕様を生成する。 ASP(Answer Set Programming)で表現された学習は、ニューラルネットワークよりも優れた性能を示し、より少ない計算時間で最適な手作りタスクに類似していることを示す。
論文参考訳（メタデータ） (2024-02-29T15:36:01Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Continuous Neural Algorithmic Planners [3.9715120586766584]
XLVINは、深層強化学習エージェントの値アルゴリズムをシミュレートするグラフニューラルネットワークである。環境に関する特権情報にアクセスせずに、モデルフリーのイテレーションプランニングを可能にする。ニューラルネットワークによる推論が高次元連続制御設定にどのように影響するかを示す。
論文参考訳（メタデータ） (2022-11-29T00:19:35Z)
JAX-DIPS: Neural bootstrapping of finite discretization methods and application to elliptic problems with discontinuities [0.0]
この戦略は、偏微分方程式のニューラルネットワークサロゲートモデルを効率的に訓練するために使用できる。提案したニューラルブートストラップ法(以下 NBM と呼ぶ)は,PDE システムの有限離散化残基の評価に基づいている。 NBMは他のPINNタイプのフレームワークとメモリとトレーニングの速度で競合することを示す。
論文参考訳（メタデータ） (2022-10-25T20:13:26Z)
Neural Algorithmic Reasoners are Implicit Planners [17.6650448492151]
価値反復にインスパイアされた暗黙のプランナーのクラスを研究します。提案手法は,高次元潜在空間における全ての計画計算を実行する。 XLVINsがバリューイテレーションと密接に一致できることを実証的に検証します。
論文参考訳（メタデータ） (2021-10-11T17:29:20Z)
Learning to Continuously Optimize Wireless Resource in a Dynamic Environment: A Bilevel Optimization Perspective [52.497514255040514]
この研究は、データ駆動メソッドが動的環境でリソース割り当て戦略を継続的に学び、最適化することを可能にする新しいアプローチを開発しています。学習モデルが新たなエピソードに段階的に適応できるように、連続学習の概念を無線システム設計に組み込むことを提案する。我々の設計は、異なるデータサンプルにまたがる公平性を保証する、新しい二段階最適化定式化に基づいている。
論文参考訳（メタデータ） (2021-05-03T07:23:39Z)
Modular Deep Reinforcement Learning for Continuous Motion Planning with Temporal Logic [59.94347858883343]
本稿では,マルコフ決定過程(MDP)をモデルとした自律動的システムの運動計画について検討する。 LDGBA と MDP の間に組込み製品 MDP (EP-MDP) を設計することである。モデルフリー強化学習(RL)のためのLDGBAベースの報酬形成と割引スキームは、EP-MDP状態にのみ依存する。
論文参考訳（メタデータ） (2021-02-24T01:11:25Z)
Graph neural induction of value iteration [22.582832003418826]
任意の環境モデルにまたがって、VIの中間ステップを直接監督する値反復(VI)アルゴリズムを実行するグラフニューラルネットワーク(GNN)を提案する。結果は、GNNが様々なアウト・オブ・ディストリビューションテストで好適なメトリクスとポリシーを回収し、価値の反復を正確にモデル化できることを示唆している。
論文参考訳（メタデータ） (2020-09-26T14:09:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。