論文の概要: DualSchool: How Reliable are LLMs for Optimization Education?
- arxiv url: http://arxiv.org/abs/2505.21775v1
- Date: Tue, 27 May 2025 21:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.298186
- Title: DualSchool: How Reliable are LLMs for Optimization Education?
- Title(参考訳): DualSchool: 最適化教育のためのLLMはどの程度信頼性が高いか?
- Authors: Michael Klamkin, Arnaud Deza, Sikai Cheng, Haoruo Zhao, Pascal Van Hentenryck,
- Abstract要約: 本稿ではDualSchoolについて紹介する。DualConversionインスタンスの生成と検証のためのフレームワークである。
LLM は変換手順を正確に引用できるが、最先端のオープン LLM は一貫して正しい双対を生成することができない。
本稿は、教育者、学生、および大規模推論システムの開発がもたらす意味についても論じる。
- 参考スコア(独自算出の注目度): 13.121155604809372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider the following task taught in introductory optimization courses which addresses challenges articulated by the community at the intersection of (generative) AI and OR: generate the dual of a linear program. LLMs, being trained at web-scale, have the conversion process and many instances of Primal to Dual Conversion (P2DC) at their disposal. Students may thus reasonably expect that LLMs would perform well on the P2DC task. To assess this expectation, this paper introduces DualSchool, a comprehensive framework for generating and verifying P2DC instances. The verification procedure of DualSchool uses the Canonical Graph Edit Distance, going well beyond existing evaluation methods for optimization models, which exhibit many false positives and negatives when applied to P2DC. Experiments performed by DualSchool reveal interesting findings. Although LLMs can recite the conversion procedure accurately, state-of-the-art open LLMs fail to consistently produce correct duals. This finding holds even for the smallest two-variable instances and for derivative tasks, such as correctness, verification, and error classification. The paper also discusses the implications for educators, students, and the development of large reasoning systems.
- Abstract(参考訳): コミュニティが(生成的)AIとORの交差点で記述した課題に対処する、序列最適化コースで教えられている以下のタスクについて考えてみましょう。
LLMは、Webスケールで訓練されており、P2DC(Primal to Dual Conversion)の多くのインスタンスを処理時に変換する。
したがって、学生はPLMがP2DCタスクでうまく機能することを合理的に期待するかもしれない。
本稿では,P2DCインスタンスの生成と検証のための総合的なフレームワークであるDualSchoolを紹介する。
DualSchoolの検証手順はCanonical Graph Edit Distanceを用いており、P2DCに適用した場合に多くの偽陽性と陰性を示す最適化モデルの既存の評価手法をはるかに超えている。
DualSchoolによる実験では興味深い結果が得られた。
LLM は変換手順を正確に引用できるが、最先端のオープン LLM は一貫して正しい双対を生成することができない。
この発見は、最小の2変数のインスタンスや、正確性、検証、エラー分類といったデリバティブなタスクにも当てはまる。
本稿は、教育者、学生、および大規模推論システムの開発がもたらす意味についても論じる。
関連論文リスト
- Estimating Correctness Without Oracles in LLM-Based Code Generation [10.204622104311014]
オラクルが存在しない場合に効率的に推定できる不整合(incoherence)と呼ばれる不整合の尺度を提案する。
平均的なコード生成タスクでは,不正なプログラムの約3分の2を自動的に識別することができる。
論文 参考訳(メタデータ) (2025-06-26T22:00:50Z) - Legal Mathematical Reasoning with LLMs: Procedural Alignment through Two-Stage Reinforcement Learning [12.90492832643565]
法的な数学的推論は、大規模言語モデル(LLM)を高い法的文脈に適用するために不可欠である。
中国初の法的数学的推論ベンチマークであるLexNumを提示する。
また、効率的な法的推論訓練のための2段階強化学習フレームワークであるLexPamを提案する。
論文 参考訳(メタデータ) (2025-04-03T13:54:53Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Towards LLM-based optimization compilers. Can LLMs learn how to apply a single peephole optimization? Reasoning is all LLMs need! [0.9054540533394926]
細調整されていないOpenAI GPT-o1は、微調整されたLlama2とGPT-4oより優れていることを示す。
この利点は, GPT-o1に実装された連鎖推論が原因であることが示唆された。
論文 参考訳(メタデータ) (2024-12-11T18:44:31Z) - Improving LLM Reasoning through Scaling Inference Computation with Collaborative Verification [52.095460362197336]
大規模言語モデル(LLM)は一貫性と正確な推論に苦しむ。
LLMは、主に正しいソリューションに基づいて訓練され、エラーを検出して学習する能力を減らす。
本稿では,CoT(Chain-of-Thought)とPoT(Program-of-Thought)を組み合わせた新しい協調手法を提案する。
論文 参考訳(メタデータ) (2024-10-05T05:21:48Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - LinkGPT: Teaching Large Language Models To Predict Missing Links [23.57145845001286]
大規模言語モデル(LLM)は、様々な言語やビジョンタスクにおいて有望な結果を示している。
近年、グラフベースのタスク、特にテキスト分散グラフ(TAG)にLLMを適用することへの関心が高まっている。
論文 参考訳(メタデータ) (2024-06-07T04:54:36Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - Symbolic Learning to Optimize: Towards Interpretability and Scalability [113.23813868412954]
近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。
既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。
本稿では,L2Oの総合的な記号表現と解析の枠組みを確立する。
そこで本稿では,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。
論文 参考訳(メタデータ) (2022-03-13T06:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。