論文の概要: Lagrangian Method for Q-Function Learning (with Applications to Machine
Translation)
- arxiv url: http://arxiv.org/abs/2207.11161v1
- Date: Fri, 22 Jul 2022 15:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-25 12:28:14.545169
- Title: Lagrangian Method for Q-Function Learning (with Applications to Machine
Translation)
- Title(参考訳): ラグランジアン法によるq関数学習(機械翻訳への応用)
- Authors: Huang Bojun
- Abstract要約: この論文は、ラグランジアンがその非線形性にもかかわらず強い双対性を持ち、これはQ-函数学習への一般的なラグランジアン法への道を開くことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper discusses a new approach to the fundamental problem of learning
optimal Q-functions. In this approach, optimal Q-functions are formulated as
saddle points of a nonlinear Lagrangian function derived from the classic
Bellman optimality equation. The paper shows that the Lagrangian enjoys strong
duality, in spite of its nonlinearity, which paves the way to a general
Lagrangian method to Q-function learning. As a demonstration, the paper
develops an imitation learning algorithm based on the duality theory, and
applies the algorithm to a state-of-the-art machine translation benchmark. The
paper then turns to demonstrate a symmetry breaking phenomenon regarding the
optimality of the Lagrangian saddle points, which justifies a largely
overlooked direction in developing the Lagrangian method.
- Abstract(参考訳): 本稿では,q関数の最適学習の基本問題に対する新しいアプローチについて述べる。
このアプローチでは、最適q-函数は古典的なベルマン最適性方程式から導かれる非線形ラグランジュ函数の鞍点として定式化される。
この論文は、ラグランジアンはその非線形性にもかかわらず強い双対性を楽しむことを示し、一般ラグランジアン法からq関数学習への道を開く。
実演として,双対性理論に基づく模倣学習アルゴリズムを開発し,そのアルゴリズムを最先端機械翻訳ベンチマークに適用する。
この論文はラグランジアン鞍点の最適性に関する対称性の破れ現象を示し、ラグランジアン法の発展において見過ごされている方向を正当化する。
関連論文リスト
- Learning Constrained Optimization with Deep Augmented Lagrangian Methods [54.22290715244502]
機械学習(ML)モデルは、制約付き最適化ソルバをエミュレートするために訓練される。
本稿では,MLモデルを用いて2つの解推定を直接予測する手法を提案する。
これにより、双対目的が損失関数であるエンドツーエンドのトレーニングスキームと、双対上昇法をエミュレートした原始的実現可能性への解推定を可能にする。
論文 参考訳(メタデータ) (2024-03-06T04:43:22Z) - Dual Lagrangian Learning for Conic Optimization [18.006916033168494]
本稿では,ラグランジアン双対性に基づく体系的二重補完手法,微分可能な円錐射影層,および自己教師型学習フレームワークを提案する。
また、円錐問題の幅広いクラスに対する閉形式二重完備式も提供し、コストのかかる暗黙の層の必要性を排除している。
提案手法は、最先端の学習法よりも優れており、平均0.5%未満の最適ギャップを有する商用インテリアポイントソルバの1000倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-02-05T15:14:08Z) - Grasp Force Optimization as a Bilinear Matrix Inequality Problem: A Deep
Learning Approach [0.4999814847776098]
本稿では,BMI問題として,多指ハンドのグリップ・ミメティック・グルーピング(グリップ・ミメティック・グルーピング)を行う。
提案手法は, 学習対象/見えない対象に対して, 最適グリップ品質で効率よく力のつかみを発生させるために, ディープアプローチを用いて解くことを目的としている。
論文 参考訳(メタデータ) (2023-12-08T13:28:21Z) - Convex Q Learning in a Stochastic Environment: Extended Version [1.680268810119084]
本稿では,関数近似を用いたマルコフ決定過程に対する凸Q-ラーニングの最初の定式化について紹介する。
提案アルゴリズムは収束し, 平均二乗感覚における収束率を求める新しい手法が導入された。
この理論は古典的な在庫管理問題への応用として説明されている。
論文 参考訳(メタデータ) (2023-09-10T18:24:43Z) - Constrained Optimization via Exact Augmented Lagrangian and Randomized
Iterative Sketching [55.28394191394675]
等式制約付き非線形非IBS最適化問題に対する適応的不正確なニュートン法を開発した。
ベンチマーク非線形問題,LVMのデータによる制約付きロジスティック回帰,PDE制約問題において,本手法の優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-28T06:33:37Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - A Stochastic Composite Augmented Lagrangian Method For Reinforcement
Learning [9.204659134755795]
深層強化学習のための線形プログラミング(LP)の定式化について検討する。
拡張ラグランジアン法は、LPの解法において二重サンプリング障害に悩まされる。
深層パラメタライズされたラグランジアン法を提案する。
論文 参考訳(メタデータ) (2021-05-20T13:08:06Z) - Leveraging Non-uniformity in First-order Non-convex Optimization [93.6817946818977]
目的関数の非一様洗練は、emphNon-uniform Smoothness(NS)とemphNon-uniform Lojasiewicz inequality(NL)につながる
新しい定義は、古典的な$Omega (1/t2)$下界よりも早く大域的最適性に収束する新しい幾何学的一階法を刺激する。
論文 参考訳(メタデータ) (2021-05-13T04:23:07Z) - Stochastic Hamiltonian Gradient Methods for Smooth Games [51.47367707388402]
ハミルトンの手法のクラスに焦点をあて、滑らかなゲームのあるクラスに対する最初の収束保証を提供する。
最適化文献からのツールを用いて、SHGDは勾配の近傍に直線的に収束することを示す。
この結果から,一般ゲームのクラスに対して,非漸近的でない最後の収束保証を初めて提供する。
論文 参考訳(メタデータ) (2020-07-08T15:42:13Z) - IDEAL: Inexact DEcentralized Accelerated Augmented Lagrangian Method [64.15649345392822]
本稿では,局所関数が滑らかで凸な分散最適化環境下での原始的手法設計のためのフレームワークを提案する。
提案手法は,加速ラグランジアン法により誘導されるサブプロブレム列を概ね解いたものである。
加速度勾配降下と組み合わせることで,収束速度が最適で,最近導出された下界と一致した新しい原始アルゴリズムが得られる。
論文 参考訳(メタデータ) (2020-06-11T18:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。