論文の概要: AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
- arxiv url: http://arxiv.org/abs/2510.18428v1
- Date: Tue, 21 Oct 2025 09:03:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.217293
- Title: AlphaOPT: Formulating Optimization Programs with Self-Improving LLM Experience Library
- Title(参考訳): AlphaOPT:自己改善LDMエクスペリエンスライブラリによる最適化プログラムの定式化
- Authors: Minwei Kong, Ao Qu, Xiaotong Guo, Wenbin Ouyang, Chonghe Jiang, Han Zheng, Yining Ma, Dingyi Zhuang, Yuhan Tang, Junyi Li, Hai Wang, Cathy Wu, Jinhua Zhao,
- Abstract要約: AlphaOPTは最適化モデリングのための自己改善エクスペリエンスライブラリである。
合理性のない限られた実演から効率よく学習する。
モデルウェイトではなくライブラリを更新することで、コストのかかる再トレーニングなしに継続的に拡張する。
- 参考スコア(独自算出の注目度): 47.82769337589924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimization modeling enables critical decisions across industries but remains difficult to automate: informal language must be mapped to precise mathematical formulations and executable solver code. Prior LLM approaches either rely on brittle prompting or costly retraining with limited generalization. We present AlphaOPT, a self-improving experience library that enables an LLM to learn from limited demonstrations (even answers alone, without gold-standard programs) and solver feedback - without annotated reasoning traces or parameter updates. AlphaOPT operates in a continual two-phase cycle: (i) a Library Learning phase that reflects on failed attempts, extracting solver-verified, structured insights as {taxonomy, condition, explanation, example}; and (ii) a Library Evolution phase that diagnoses retrieval misalignments and refines the applicability conditions of stored insights, improving transfer across tasks. This design (1) learns efficiently from limited demonstrations without curated rationales, (2) expands continually without costly retraining by updating the library rather than model weights, and (3) makes knowledge explicit and interpretable for human inspection and intervention. Experiments show that AlphaOPT steadily improves with more data (65% to 72% from 100 to 300 training items) and surpasses the strongest baseline by 7.7% on the out-of-distribution OptiBench dataset when trained only on answers. Code and data are available at: https://github.com/Minw913/AlphaOPT.
- Abstract(参考訳): 最適化モデリングは、業界全体で重要な決定を可能にするが、自動化することは依然として困難である:非公式言語は正確な数学的定式化と実行可能なソルバコードにマッピングされなければならない。
LLMの以前のアプローチは、不安定なプロンプトや、限られた一般化によるコストのかかる再訓練に頼っていた。
提案するAlphaOPTは,LPMが限定的なデモ(ゴールドスタンダードプログラムを使わずに,回答だけでも)とソルバフィードバックから学ぶことができる自己改善体験ライブラリで,注釈付き推論トレースやパラメータ更新を使わずに利用できる。
AlphaOPTは連続した2相サイクルで動作します。
一 失敗を反映した図書館学習の段階であって、解決者確認された構造化された洞察を分類学、条件、説明、例として抽出すること。
(II)検索ミスを診断し、記憶された洞察の適用性条件を洗練し、タスク間の移動を改善するライブラリ進化段階。
本設計は, 合理性のない限定的な実演から効率よく学習し, モデル重みではなく, ライブラリを更新することで, 費用対効果を伴わずに継続的に拡張し, 人間の検査・介入の知識を明確化し, 解釈できるようにする。
実験によると、AlphaOPTはより多くのデータ(100から300のトレーニング項目から65%から72%)で着実に改善され、回答のみに基づいてトレーニングされたときに、配布外OptiBenchデータセットにおいて最強のベースラインを7.7%上回っている。
コードとデータは、https://github.com/Minw913/AlphaOPT.comで入手できる。
関連論文リスト
- AIRepr: An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
大規模言語モデル(LLM)は、実行可能なコード生成を通じてデータ分析を自動化するために、ますます使われるようになっている。
LLM 生成データ解析の $itRepr$oducibility を自動的に評価し,改善するための $itA$nalyst - $itI$nspector フレームワークである $itAIRepr を提示する。
論文 参考訳(メタデータ) (2025-02-23T01:15:50Z) - Agents Are All You Need for LLM Unlearning [9.934258340998047]
textttALUは、LLMアンラーニングに対するマルチエージェント、リトレインフリー、モデルに依存しないアプローチである。
textttALUは、最も堅牢な推論時LLMアンラーニングフレームワークとして一貫して注目されている。
textttALUは最大1000の未学習目標に基づいて評価され、これまで提案された全てのLLM未学習手法の評価範囲を超えている。
論文 参考訳(メタデータ) (2025-02-01T11:45:44Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - LEAF: Learning and Evaluation Augmented by Fact-Checking to Improve Factualness in Large Language Models [11.453585039783901]
LEAF: Fact-Checkingによって強化された学習と評価は、大規模言語モデル(LLM)の現実的信頼性を高めるために設計された新しいアプローチである。
最初の戦略であるFact-Check-Then-RAGは、ファクトチェック結果を取り入れて、モデルパラメータを更新せずに検索プロセスをガイドすることによって、検索精度を向上させる。
第2の戦略であるLearning from Fact-Checks via Self-Trainingは、ファクトチェックされた応答の監督された微調整(SFT)や、ファクトチェックをランキングメカニズムとして適用するSimple Preference Optimization(SimPO)である。
論文 参考訳(メタデータ) (2024-10-31T00:18:05Z) - Divide-Verify-Refine: Can LLMs Self-Align with Complex Instructions? [33.18076221854853]
複雑な命令を単一制約に分割し,適切なツールを作成するためのフレームワークを提案する。
次に、厳密なチェックとテキストガイダンスを提供するツールを使用して応答を検証する。
改良効率を最大化するために,改良レポジトリが改良を成功させる動的数発プロンプトを提案する。
論文 参考訳(メタデータ) (2024-10-16T04:01:55Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。