論文の概要: Auto-Formulating Dynamic Programming Problems with Large Language Models
- arxiv url: http://arxiv.org/abs/2507.11737v1
- Date: Tue, 15 Jul 2025 21:09:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.15604
- Title: Auto-Formulating Dynamic Programming Problems with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた動的プログラミング問題の自動生成
- Authors: Chenyu Zhou, Jingyuan Yang, Linwei Xin, Yitian Chen, Ziyan He, Dongdong Ge,
- Abstract要約: DP-Benchは、幅広い教科書レベルのDP問題を網羅し、体系的な評価を可能にする最初のベンチマークである。
DPLMの有効性の中心はDualReflectです。DualReflectは、限られた初期例からトレーニングデータをスケールアップするために設計された、新しい合成データ生成パイプラインです。
この結果から, 多様な定式化を導入するための大規模化において, 後方生成は強力な正当性を保証するために, 低データ体制で好まれることが明らかとなった。
- 参考スコア(独自算出の注目度): 4.693833469789685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dynamic programming (DP) is a fundamental method in operations research, but formulating DP models has traditionally required expert knowledge of both the problem context and DP techniques. Large Language Models (LLMs) offer the potential to automate this process. However, DP problems pose unique challenges due to their inherently stochastic transitions and the limited availability of training data. These factors make it difficult to directly apply existing LLM-based models or frameworks developed for other optimization problems, such as linear or integer programming. We introduce DP-Bench, the first benchmark covering a wide range of textbook-level DP problems to enable systematic evaluation. We present Dynamic Programming Language Model (DPLM), a 7B-parameter specialized model that achieves performance comparable to state-of-the-art LLMs like OpenAI's o1 and DeepSeek-R1, and surpasses them on hard problems. Central to DPLM's effectiveness is DualReflect, our novel synthetic data generation pipeline, designed to scale up training data from a limited set of initial examples. DualReflect combines forward generation for diversity and backward generation for reliability. Our results reveal a key insight: backward generation is favored in low-data regimes for its strong correctness guarantees, while forward generation, though lacking such guarantees, becomes increasingly valuable at scale for introducing diverse formulations. This trade-off highlights the complementary strengths of both approaches and the importance of combining them.
- Abstract(参考訳): 動的プログラミング(DP)はオペレーション研究の基本的な手法であるが、DPモデルの定式化は伝統的に問題コンテキストとDP技術の両方に関する専門知識を必要としてきた。
大きな言語モデル(LLM)は、このプロセスを自動化する可能性を提供します。
しかしDP問題は、その本質的に確率的な遷移と、トレーニングデータの限られた可用性のために、ユニークな課題を生んでいる。
これらの要因により、線形プログラミングや整数プログラミングといった他の最適化問題のために開発された既存のLCMベースのモデルやフレームワークを直接適用することは困難である。
DP-Benchは、幅広い教科書レベルのDP問題を網羅し、体系的な評価を可能にする最初のベンチマークである。
我々は,OpenAIのo1やDeepSeek-R1といった最先端のLLMに匹敵するパフォーマンスを実現する7Bパラメータ特化モデルであるDynamic Programming Language Model (DPLM)を提示し,それらの問題を克服する。
DPLMの有効性の中心はDualReflectです。DualReflectは、限られた初期例からトレーニングデータをスケールアップするために設計された、新しい合成データ生成パイプラインです。
DualReflectは、多様性のための前方生成と信頼性のための後方生成を組み合わせたものだ。
このような保証を欠いているが, 様々な定式化を導入する上で, 大規模化において, 後方生成は, 強い正当性を保証するために, 低データ体制で好まれる。
このトレードオフは、両方のアプローチの補完的な強みと、それらを組み合わせることの重要性を強調します。
関連論文リスト
- C2-Evo: Co-Evolving Multimodal Data and Model for Self-Improving Reasoning [78.36259648527401]
C2-Evoは、トレーニングデータとモデル機能の両方を共同で進化させる、自動クローズドループ自己改善フレームワークである。
C2-Evoは、複数の数学的推論ベンチマークにおいて、一定の性能向上が得られることを示す。
論文 参考訳(メタデータ) (2025-07-22T12:27:08Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Streaming Sign Language Production [0.0]
本稿では,自己回帰モデルと拡散モデルを組み合わせて手話生成(SLP)モデルを生成するハイブリッドアプローチを提案する。
細かな体の動きを捉えるため,異なるアーティストから細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
また、連立レベルの信頼スコアを利用してポーズ生成過程を動的にガイドする信頼意識型因果注意機構も導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - Integrating Intermediate Layer Optimization and Projected Gradient Descent for Solving Inverse Problems with Diffusion Models [24.745502021162878]
逆問題(IP)はノイズの観測から信号を再構成する。
DMはIPを解くための強力なフレームワークとして登場し、優れた再構築性能を実現している。
既存のDMベースの手法は、重い計算要求や準最適収束といった問題に頻繁に遭遇する。
これらの課題に対処するために,DMILOとDMILO-PGDという2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2025-05-27T06:49:02Z) - DMRL: Data- and Model-aware Reward Learning for Data Extraction [3.511535517476954]
大規模言語モデル(LLM)は本質的に意図しないプライバシー侵害に対して脆弱である。
本稿では,データ抽出のためのデータ・モデル・アウェア・リワード学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-07T07:21:37Z) - OptMATH: A Scalable Bidirectional Data Synthesis Framework for Optimization Modeling [9.617742955894247]
高品質な最適化モデリングデータセットの欠如は、大きな言語モデルを悩ませます。
本稿では,OptMATHという高品質なデータセットを合成するためのスケーラブルなフレームワークを提案する。
我々は,OptMATHでトレーニングした様々なサイズのモデルが,複数のモデリングベンチマークにおいて優れた結果が得られることを実証した。
論文 参考訳(メタデータ) (2025-02-16T12:38:37Z) - Forewarned is Forearmed: Leveraging LLMs for Data Synthesis through Failure-Inducing Exploration [90.41908331897639]
大規模言語モデル(LLM)は、多種多様な高品質なタスク特化データのトレーニングの恩恵を受けている。
本稿では,効果的なトレーニングサンプルを自動生成する新しい手法であるReverseGenを提案する。
論文 参考訳(メタデータ) (2024-10-22T06:43:28Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [49.362750475706235]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。
英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文 参考訳(メタデータ) (2024-08-28T06:33:03Z) - Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。
生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文 参考訳(メタデータ) (2024-08-05T16:21:17Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - An Online Method for A Class of Distributionally Robust Optimization
with Non-Convex Objectives [54.29001037565384]
本稿では,オンライン分散ロバスト最適化(DRO)のクラスを解決するための実用的なオンライン手法を提案する。
本研究は,ネットワークの堅牢性向上のための機械学習における重要な応用を実証する。
論文 参考訳(メタデータ) (2020-06-17T20:19:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。