Fugu-MT 論文翻訳(概要): Primitive Agentic First-Order Optimization

論文の概要: Primitive Agentic First-Order Optimization

arxiv url: http://arxiv.org/abs/2406.04841v1
Date: Fri, 7 Jun 2024 11:13:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-10 14:30:43.495238
Title: Primitive Agentic First-Order Optimization
Title（参考訳）: 原始エージェント第一次最適化
Authors: R. Sala,
Abstract要約: 本研究では,一階強化学習として,原始状態表現とエージェント環境相互作用を組み合わせた概念実証研究を提案する。その結果,RLに基づく最適化では,基本的RL法と簡潔な部分的状態表現を組み合わせることで,複雑性の管理を最適化できることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Efficient numerical optimization methods can improve performance and reduce the environmental impact of computing in many applications. This work presents a proof-of-concept study combining primitive state representations and agent-environment interactions as first-order optimizers in the setting of budget-limited optimization. Through reinforcement learning (RL) over a set of training instances of an optimization problem class, optimal policies for sequential update selection of algorithmic iteration steps are approximated in generally formulated low-dimensional partial state representations that consider aspects of progress and resource use. For the investigated case studies, deployment of the trained agents to unseen instances of the quadratic optimization problem classes outperformed conventional optimal algorithms with optimized hyperparameters. The results show that elementary RL methods combined with succinct partial state representations can be used as heuristics to manage complexity in RL-based optimization, paving the way for agentic optimization approaches.
Abstract（参考訳）: 効率的な数値最適化手法は、多くのアプリケーションにおいて、性能を改善し、環境への影響を低減することができる。本研究では,基本状態表現とエージェント環境相互作用を組み合わせた概念実証研究を,予算限定最適化の設定において一階最適化器として提案する。最適化問題クラスの一連のトレーニングインスタンスに対する強化学習(RL)を通じて、アルゴリズム的反復ステップの逐次更新選択のための最適ポリシーを、進歩と資源利用の側面を考慮した一般的な低次元部分状態表現に近似する。ケーススタディでは,2次最適化問題クラスの未確認インスタンスへのトレーニングエージェントの配置が,最適化ハイパーパラメータを用いた従来の最適アルゴリズムより優れていた。以上の結果から, 素数RL法と簡潔な部分状態表現を組み合わせることで, RL最適化の複雑さを解消し, エージェント最適化アプローチの道を開くことができることがわかった。

関連論文リスト

Optimizing Optimizers for Fast Gradient-Based Learning [53.81268610971847]
勾配学習における設計の自動化に関する理論的基礎を築いた。勾配損失信号をパラメータ運動に変換する関数として扱うことにより、この問題は凸最適化問題の族に還元される。
論文参考訳（メタデータ） (2025-12-06T09:50:41Z)
Preference Optimization for Combinatorial Optimization Problems [54.87466279363487]
強化学習(Reinforcement Learning, RL)は、ニューラルネットワーク最適化のための強力なツールとして登場した。大幅な進歩にもかかわらず、既存のRLアプローチは報酬信号の減少や大規模な行動空間における非効率な探索といった課題に直面している。統計的比較モデルを用いて定量的報酬信号を定性的選好信号に変換する新しい手法であるPreference Optimizationを提案する。
論文参考訳（メタデータ） (2025-05-13T16:47:00Z)
Advancing CMA-ES with Learning-Based Cooperative Coevolution for Scalable Optimization [12.899626317088885]
本稿では,先駆的な学習に基づく協調的共進化フレームワークであるLCCを紹介する。 LCCは最適化プロセス中に動的に分解戦略をスケジュールする。最適化の効率性とリソース消費の観点からは、最先端のベースラインに対して、ある種のアドバンテージを提供する。
論文参考訳（メタデータ） (2025-04-24T14:09:22Z)
Learning Joint Models of Prediction and Optimization [56.04498536842065]
Predict-Then-Thenフレームワークは、機械学習モデルを使用して、最適化問題の未知のパラメータを、解決前の機能から予測する。本稿では,共同予測モデルを用いて観測可能特徴から最適解を直接学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-07T19:52:14Z)
Discovering Preference Optimization Algorithms with and for Large Language Models [50.843710797024805]
オフライン優先最適化は、LLM(Large Language Model)出力の品質を向上・制御するための重要な手法である。我々は、人間の介入なしに、新しい最先端の選好最適化アルゴリズムを自動で発見する客観的発見を行う。実験は、ロジスティックと指数的損失を適応的にブレンドする新しいアルゴリズムであるDiscoPOPの最先端性能を示す。
論文参考訳（メタデータ） (2024-06-12T16:58:41Z)
Fast Two-Time-Scale Stochastic Gradient Method with Applications in Reinforcement Learning [5.325297567945828]
本稿では,従来の手法よりもはるかに高速な収束を実現する2段階最適化手法を提案する。提案アルゴリズムは,様々な条件下で特徴付けられ,オンラインサンプルベース手法に特化していることを示す。
論文参考訳（メタデータ） (2024-05-15T19:03:08Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Analyzing and Enhancing the Backward-Pass Convergence of Unrolled Optimization [50.38518771642365]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。この設定における中心的な課題は最適化問題の解によるバックプロパゲーションであり、しばしば閉形式を欠いている。本稿では, 非線形最適化の後方通過に関する理論的知見を提供し, 特定の反復法による線形システムの解と等価であることを示す。 Folded Optimizationと呼ばれるシステムが提案され、非ローリングなソルバ実装からより効率的なバックプロパゲーションルールを構築する。
論文参考訳（メタデータ） (2023-12-28T23:15:18Z)
Backpropagation of Unrolled Solvers with Folded Optimization [55.04219793298687]
ディープネットワークにおけるコンポーネントとしての制約付き最適化モデルの統合は、多くの専門的な学習タスクに有望な進歩をもたらした。 1つの典型的な戦略はアルゴリズムのアンローリングであり、これは反復解法の操作による自動微分に依存している。本稿では,非ロール最適化の後方通過に関する理論的知見を提供し,効率よく解けるバックプロパゲーション解析モデルを生成するシステムに繋がる。
論文参考訳（メタデータ） (2023-01-28T01:50:42Z)
Teaching Networks to Solve Optimization Problems [13.803078209630444]
反復解法をトレーニング可能なパラメトリック集合関数に置き換えることを提案する。このようなパラメトリックな(集合)関数を学習することで、様々な古典的最適化問題を解くことができることを示す。
論文参考訳（メタデータ） (2022-02-08T19:13:13Z)
Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。 Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文参考訳（メタデータ） (2020-10-15T18:09:48Z)
Tiering as a Stochastic Submodular Optimization Problem [5.659969270836789]
タイアリングは大規模情報検索システムを構築する上で欠かせない技術である。最適化問題としての最適階層化は、部分モジュラーなknapsack制約を伴う部分モジュラー最小化問題として適用可能であることを示す。
論文参考訳（メタデータ） (2020-05-16T07:39:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。