論文の概要: Path Learning with Trajectory Advantage Regression
- arxiv url: http://arxiv.org/abs/2506.19375v1
- Date: Tue, 24 Jun 2025 07:05:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.52925
- Title: Path Learning with Trajectory Advantage Regression
- Title(参考訳): 軌道アドバンテージ回帰を用いた経路学習
- Authors: Kohei Miyaguchi,
- Abstract要約: 本稿では,強化学習に基づくオフライン経路学習と経路帰属の手法であるトラジェクトリ・アドバンテージ・レグレッションを提案する。
提案手法は回帰問題のみをアルゴリズム的に解きながら経路最適化問題を解くのに利用できる。
- 参考スコア(独自算出の注目度): 9.645196221785694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose trajectory advantage regression, a method of offline path learning and path attribution based on reinforcement learning. The proposed method can be used to solve path optimization problems while algorithmically only solving a regression problem.
- Abstract(参考訳): 本稿では,強化学習に基づくオフライン経路学習と経路帰属の手法であるトラジェクトリ・アドバンスト回帰を提案する。
提案手法は回帰問題のみをアルゴリズム的に解きながら経路最適化問題を解くのに利用できる。
関連論文リスト
- Rethinking Optimal Transport in Offline Reinforcement Learning [64.56896902186126]
オフラインの強化学習では、データはさまざまな専門家によって提供され、一部は準最適である。
効率的なポリシを抽出するには、データセットから最高の振る舞いを強調する必要がある。
本稿では,各状態に対する最善の専門家行動の公平な分布に状態をマッピングするポリシーを見つけることを目的としたアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T22:36:43Z) - Learning Efficient and Effective Trajectories for Differential Equation-based Image Restoration [59.744840744491945]
本稿では, この手法の軌道最適化を改良し, 復元品質と効率の両立に焦点をあてる。
反復サンプリングに伴うかなりの計算負担を軽減するため,コストを考慮したトラジェクトリー蒸留法を提案する。
提案アルゴリズムを用いて基礎拡散モデル(FLUX)を12Bパラメータで微調整し、7種類の画像復元タスクを処理する統一的なフレームワークを作成する。
論文 参考訳(メタデータ) (2024-10-07T07:46:08Z) - Self-Improvement for Neural Combinatorial Optimization: Sample without Replacement, but Improvement [1.1510009152620668]
建設的ニューラル最適化の現在の手法は、通常、専門家ソリューションからの行動クローニングや強化学習からのポリシー勾配手法を用いてポリシーを訓練する。
各エポックにおける現在のモデルを用いて、ランダムなインスタンスに対して複数の解をサンプリングし、その後、教師付き模倣学習のための専門家の軌跡として最適な解を選択することにより、この2つを橋渡しする。
我々は,旅行セールスマン問題とキャパシタントカールーティング問題に対する我々のアプローチを評価し,本手法で訓練したモデルは,専門家データで訓練したモデルと同等の性能と一般化を実現する。
論文 参考訳(メタデータ) (2024-03-22T13:09:10Z) - Deep Reinforcement Learning for Picker Routing Problem in Warehousing [0.6562256987706128]
本稿では、強化学習を用いて学習したピッカーツアーをモデル化するための注意に基づくニューラルネットワークを提案する。
提案手法の重要な利点は,経路の複雑さを低減できるオプションを提供することである。
論文 参考訳(メタデータ) (2024-02-05T21:25:45Z) - Efficient Ground Vehicle Path Following in Game AI [77.34726150561087]
本稿では,ゲームAIに適した地上車両の効率的な追従経路を提案する。
提案したパスフォロワは,一対一シューティングゲームにおいて,様々なテストシナリオを通じて評価される。
その結果,既存の経路と比較すると,立ち往生するイベントの総数が70%減少した。
論文 参考訳(メタデータ) (2023-07-07T04:20:07Z) - Dependency Parsing with Backtracking using Deep Reinforcement Learning [3.4870723728779573]
我々は強化学習を使用して、そのようなアクションが現在のソリューションを探索し続けるよりも優れた報酬を得る場合、アルゴリズムをバックトラックします。
POSタグ付けと依存性解析の両方でこの考え方を検証し、バックトラッキングがエラーの伝播に対抗する効果的な手段であることを示す。
論文 参考訳(メタデータ) (2022-06-28T11:45:42Z) - Unsupervised Path Regression Networks [14.895252584104679]
我々は、教師なしの方法で訓練されたニューラルネットワークからの直接スプライン回帰によって、最も短い経路問題を解くことができることを示した。
最小値が衝突のない解を保証するような幾何依存の最適コスト関数を導出する。
論文 参考訳(メタデータ) (2020-11-30T13:45:55Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z) - Follow the bisector: a simple method for multi-objective optimization [65.83318707752385]
複数の異なる損失を最小化しなければならない最適化問題を考える。
提案手法は、各イテレーションにおける降下方向を計算し、目的関数の相対的減少を等しく保証する。
論文 参考訳(メタデータ) (2020-07-14T09:50:33Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。