論文の概要: Rethinking Deep Thinking: Stable Learning of Algorithms using Lipschitz Constraints
- arxiv url: http://arxiv.org/abs/2410.23451v1
- Date: Wed, 30 Oct 2024 20:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 17:01:12.280086
- Title: Rethinking Deep Thinking: Stable Learning of Algorithms using Lipschitz Constraints
- Title(参考訳): 深い思考を再考する:リプシッツ制約を用いたアルゴリズムの安定学習
- Authors: Jay Bear, Adam Prügel-Bennett, Jonathon Hare,
- Abstract要約: 反復アルゴリズムは、解に到達するまでステップを踏むことで問題を解決する。
ディープシンキング(DT)ネットワークは、推論時に異なるサイズの問題にスケール可能な方法で反復アルゴリズムを学習することが実証されている。
トレーニング中は不安定であり、ソリューションにおける収束/終了の保証はない。
本稿では,中間表現の成長を解析することで不安定性の問題に対処する。
- 参考スコア(独自算出の注目度): 6.171990546748665
- License:
- Abstract: Iterative algorithms solve problems by taking steps until a solution is reached. Models in the form of Deep Thinking (DT) networks have been demonstrated to learn iterative algorithms in a way that can scale to different sized problems at inference time using recurrent computation and convolutions. However, they are often unstable during training, and have no guarantees of convergence/termination at the solution. This paper addresses the problem of instability by analyzing the growth in intermediate representations, allowing us to build models (referred to as Deep Thinking with Lipschitz Constraints (DT-L)) with many fewer parameters and providing more reliable solutions. Additionally our DT-L formulation provides guarantees of convergence of the learned iterative procedure to a unique solution at inference time. We demonstrate DT-L is capable of robustly learning algorithms which extrapolate to harder problems than in the training set. We benchmark on the traveling salesperson problem to evaluate the capabilities of the modified system in an NP-hard problem where DT fails to learn.
- Abstract(参考訳): 反復アルゴリズムは、解に到達するまでステップを踏むことで問題を解決する。
ディープシンキング(DT)ネットワークの形式でのモデルは、反復的な計算と畳み込みを用いて、推論時に異なるサイズの問題にスケールできる方法で反復アルゴリズムを学習することが実証されている。
しかしながら、トレーニング中に不安定な場合が多く、ソリューションにおける収束/終了の保証がない。
本稿では、中間表現の成長を分析することで不安定性の問題に対処し、より少ないパラメータを持つモデル(Deep Thinking with Lipschitz Constraints (DT-L))を構築し、より信頼性の高いソリューションを提供する。
さらに、DT-Lの定式化は、学習された反復手順が推論時に一意解に収束することを保証します。
DT-Lは、トレーニングセットよりも難しい問題に外挿するアルゴリズムを堅牢に学習できることを実証する。
我々は、DTが学習できないNPハード問題において、旅行セールスパーソンの問題をベンチマークし、修正システムの能力を評価する。
関連論文リスト
- The Differentiable Feasibility Pump [49.55771920271201]
本稿では,従来の実現可能性ポンプとその追随点の多くを,特定のパラメータを持つ勾配差アルゴリズムとみなすことができることを示す。
この再解釈の中心的な側面は、伝統的なアルゴリズムがそのコストに関して線形緩和の解を区別することを観察することである。
論文 参考訳(メタデータ) (2024-11-05T22:26:51Z) - Tractable Offline Learning of Regular Decision Processes [50.11277112628193]
この研究は、正則決定過程(RDP)と呼ばれる非マルコフ環境のクラスにおけるオフライン強化学習(RL)を研究する。
インスは、未来の観測と過去の相互作用からの報酬の未知の依存を実験的に捉えることができる。
多くのアルゴリズムは、まずこの未知の依存関係を自動学習技術を用いて再構築する。
論文 参考訳(メタデータ) (2024-09-04T14:26:58Z) - Looking Ahead to Avoid Being Late: Solving Hard-Constrained Traveling
Salesman Problem [36.88003015541172]
そこで本稿では,TSP と Time Windows (TSPTW) の正当性を改善するために,ルックアヘッド情報を用いた新しい学習手法を提案する。
多様なデータセットに関する包括的な実験により、MUSLAは既存のベースラインを上回り、一般化可能性を示す。
論文 参考訳(メタデータ) (2024-03-08T13:49:21Z) - Truly No-Regret Learning in Constrained MDPs [61.78619476991494]
未知のCMDPで学習するモデルベース原始双対アルゴリズムを提案する。
提案アルゴリズムは,誤差のキャンセルを伴わずにサブ線形後悔を実現する。
論文 参考訳(メタデータ) (2024-02-24T09:47:46Z) - Uncertainty quantification for deep learning-based schemes for solving
high-dimensional backward stochastic differential equations [5.883258964010963]
深層学習に基づくBSDEスキームのクラスに対する不確実性定量化(UQ)について検討する。
アルゴリズムの単一実行のみを用いて近似解のSTDを効率的に推定するUQモデルを開発した。
数値実験により,UQモデルは近似解の平均とSTDの信頼性の高い推定値を生成することが示された。
論文 参考訳(メタデータ) (2023-10-05T09:00:48Z) - Exploring Viable Algorithmic Options for Learning from Demonstration
(LfD): A Parameterized Complexity Approach [0.0]
本稿では,パラメータ化複雑性解析を用いて,アルゴリズムの選択肢を体系的に探索する方法を示す。
環境、実演、ポリシーに対する多くの(しばしば同時に)制限に対して、我々の問題は、一般的にも、あるいは相対的に、効率的に解決できないことを示す。
論文 参考訳(メタデータ) (2022-05-10T15:54:06Z) - Instance-Dependent Confidence and Early Stopping for Reinforcement
Learning [99.57168572237421]
強化学習(RL)のための様々なアルゴリズムは、その収束率の劇的な変動を問題構造の関数として示している。
この研究は、観察されたパフォーマンスの違いについて、textitexを説明する保証を提供する。
次の自然なステップは、これらの理論的保証を実際に有用なガイドラインに変換することです。
論文 参考訳(メタデータ) (2022-01-21T04:25:35Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Online Robust Reinforcement Learning with Model Uncertainty [24.892994430374912]
未知の不確実性集合を推定し、堅牢なQ-ラーニングと堅牢なTDCアルゴリズムを設計するためのサンプルベースアプローチを開発する。
頑健なQ-ラーニングアルゴリズムでは、最適なロバストなQ関数に収束することが証明され、ロバストなTDCアルゴリズムでは、いくつかの定常点に収束することが証明される。
我々のアプローチは、TD、SARSA、その他のGTDアルゴリズムなど、他の多くのアルゴリズムを堅牢化するために容易に拡張できる。
論文 参考訳(メタデータ) (2021-09-29T16:17:47Z) - Covariance-Free Sparse Bayesian Learning [62.24008859844098]
共分散行列の明示的な反転を回避する新しいSBL推論アルゴリズムを導入する。
私たちの手法は、既存のベースラインよりも数千倍も高速です。
我々は,SBLが高次元信号回復問題に難なく対処できる新しいアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2021-05-21T16:20:07Z) - Graph Minors Meet Machine Learning: the Power of Obstructions [0.90238471756546]
ニューラルネットワークのトレーニングに閉塞を用いることの有用性を示す。
実験により、障害のあるトレーニングによって収束に必要なイテレーションの数が大幅に減少することが示された。
論文 参考訳(メタデータ) (2020-06-08T15:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。