論文の概要: DualSchool: How Reliable are LLMs for Optimization Education?
- arxiv url: http://arxiv.org/abs/2505.21775v1
- Date: Tue, 27 May 2025 21:19:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.298186
- Title: DualSchool: How Reliable are LLMs for Optimization Education?
- Title(参考訳): DualSchool: 最適化教育のためのLLMはどの程度信頼性が高いか?
- Authors: Michael Klamkin, Arnaud Deza, Sikai Cheng, Haoruo Zhao, Pascal Van Hentenryck,
- Abstract要約: 本稿ではDualSchoolについて紹介する。DualConversionインスタンスの生成と検証のためのフレームワークである。
LLM は変換手順を正確に引用できるが、最先端のオープン LLM は一貫して正しい双対を生成することができない。
本稿は、教育者、学生、および大規模推論システムの開発がもたらす意味についても論じる。
- 参考スコア(独自算出の注目度): 13.121155604809372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Consider the following task taught in introductory optimization courses which addresses challenges articulated by the community at the intersection of (generative) AI and OR: generate the dual of a linear program. LLMs, being trained at web-scale, have the conversion process and many instances of Primal to Dual Conversion (P2DC) at their disposal. Students may thus reasonably expect that LLMs would perform well on the P2DC task. To assess this expectation, this paper introduces DualSchool, a comprehensive framework for generating and verifying P2DC instances. The verification procedure of DualSchool uses the Canonical Graph Edit Distance, going well beyond existing evaluation methods for optimization models, which exhibit many false positives and negatives when applied to P2DC. Experiments performed by DualSchool reveal interesting findings. Although LLMs can recite the conversion procedure accurately, state-of-the-art open LLMs fail to consistently produce correct duals. This finding holds even for the smallest two-variable instances and for derivative tasks, such as correctness, verification, and error classification. The paper also discusses the implications for educators, students, and the development of large reasoning systems.
- Abstract(参考訳): コミュニティが(生成的)AIとORの交差点で記述した課題に対処する、序列最適化コースで教えられている以下のタスクについて考えてみましょう。
LLMは、Webスケールで訓練されており、P2DC(Primal to Dual Conversion)の多くのインスタンスを処理時に変換する。
したがって、学生はPLMがP2DCタスクでうまく機能することを合理的に期待するかもしれない。
本稿では,P2DCインスタンスの生成と検証のための総合的なフレームワークであるDualSchoolを紹介する。
DualSchoolの検証手順はCanonical Graph Edit Distanceを用いており、P2DCに適用した場合に多くの偽陽性と陰性を示す最適化モデルの既存の評価手法をはるかに超えている。
DualSchoolによる実験では興味深い結果が得られた。
LLM は変換手順を正確に引用できるが、最先端のオープン LLM は一貫して正しい双対を生成することができない。
この発見は、最小の2変数のインスタンスや、正確性、検証、エラー分類といったデリバティブなタスクにも当てはまる。
本稿は、教育者、学生、および大規模推論システムの開発がもたらす意味についても論じる。
関連論文リスト
- LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Iterative Forward Tuning Boosts In-Context Learning in Language Models [88.25013390669845]
本研究では,大規模言語モデル(LLM)における文脈内学習を促進する新しい2段階フレームワークを提案する。
具体的には、当社のフレームワークでは、ICLプロセスをDeep-ThinkingとTest Stageの2つの別々のステージに分類しています。
ディープシンキング段階にはユニークな注意機構、すなわち反復的な注意強化機構が組み込まれており、複数の情報の蓄積を可能にしている。
論文 参考訳(メタデータ) (2023-05-22T13:18:17Z) - $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest
Neighbor Inference [75.08572535009276]
In-Context Learning (ICL) は、ターゲットタスクを、インコンテキストのデモンストレーションで条件付のプロンプト完了として定式化する。
$k$NN 最初のクエリ LLM を分散表現のトレーニングデータで実行し、近くの隣人を参照してテストインスタンスを予測する。
数ショットのシナリオでは、最先端のキャリブレーションベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-03-24T06:16:29Z) - Symbolic Learning to Optimize: Towards Interpretability and Scalability [113.23813868412954]
近年のL2O(Learning to Optimize)研究は,複雑なタスクに対する最適化手順の自動化と高速化に期待できる道のりを示唆している。
既存のL2Oモデルは、ニューラルネットワークによる最適化ルールをパラメータ化し、メタトレーニングを通じてそれらの数値ルールを学ぶ。
本稿では,L2Oの総合的な記号表現と解析の枠組みを確立する。
そこで本稿では,大規模問題にメタトレーニングを施す軽量なL2Oモデルを提案する。
論文 参考訳(メタデータ) (2022-03-13T06:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。