論文の概要: LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation
- arxiv url: http://arxiv.org/abs/2512.00039v1
- Date: Thu, 13 Nov 2025 23:19:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.398725
- Title: LM4Opt-RA: A Multi-Candidate LLM Framework with Structured Ranking for Automating Network Resource Allocation
- Title(参考訳): LM4Opt-RA:ネットワークリソース割り当て自動化のための構造化ランキング付きマルチCandidate LLMフレームワーク
- Authors: Tasnim Ahmed, Siana Rizwan, Naveed Ejaz, Salimur Choudhury,
- Abstract要約: 我々は,複雑な解析的および数学的推論タスクに,文脈的理解が不要であることに対処する。
既存のベンチマークデータセットは、動的な環境、変数、不均一な制約でそのような問題の複雑さに対処できない。
NL4RAは、LP、ILP、MILPとして定式化された50のリソース割り当て最適化問題からなるキュレートデータセットである。
次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
- 参考スコア(独自算出の注目度): 0.7933039558471408
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building on advancements in Large Language Models (LLMs), we can tackle complex analytical and mathematical reasoning tasks requiring nuanced contextual understanding. A prime example of such complex tasks is modelling resource allocation optimization in networks, which extends beyond translating natural language inputs into mathematical equations or Linear Programming (LP), Integer Linear Programming (ILP), and Mixed-Integer Linear Programming (MILP) models. However, existing benchmarks and datasets cannot address the complexities of such problems with dynamic environments, interdependent variables, and heterogeneous constraints. To address this gap, we introduce NL4RA, a curated dataset comprising 50 resource allocation optimization problems formulated as LP, ILP, and MILP. We then evaluate the performance of well-known open-source LLMs with varying parameter counts. To enhance existing LLM based methods, we introduce LM4Opt RA, a multi candidate framework that applies diverse prompting strategies such as direct, few shot, and chain of thought, combined with a structured ranking mechanism to improve accuracy. We identified discrepancies between human judgments and automated scoring such as ROUGE, BLEU, or BERT scores. However, human evaluation is time-consuming and requires specialized expertise, making it impractical for a fully automated end-to-end framework. To quantify the difference between LLM-generated responses and ground truth, we introduce LLM-Assisted Mathematical Evaluation (LAME), an automated metric designed for mathematical formulations. Using LM4Opt-RA, Llama-3.1-70B achieved a LAME score of 0.8007, outperforming other models by a significant margin, followed closely by Llama-3.1-8B. While baseline LLMs demonstrate considerable promise, they still lag behind human expertise; our proposed method surpasses these baselines regarding LAME and other metrics.
- Abstract(参考訳): LLM(Large Language Models)の進歩に基づいて、複雑な解析的および数学的推論タスクに難解な文脈的理解を必要とする課題に取り組むことができる。
このような複雑なタスクの第一の例は、自然言語入力を数学的方程式や線形計画法(LP)、整数線形計画法(ILP)、混合整数線形計画法(MILP)モデルへの変換を超えて、ネットワーク内のリソース割り当て最適化をモデル化することである。
しかし、既存のベンチマークやデータセットは、動的な環境、相互依存変数、不均一な制約など、そのような問題の複雑さに対処できない。
このギャップに対処するために,LP,ILP,MILPとして定式化された50のリソース割り当て最適化問題からなる計算データセットNL4RAを導入する。
次に,パラメータ数が異なるオープンソースのLLMの性能評価を行った。
従来のLCMに基づく手法を強化するために,直接的,少ないショット,思考の連鎖といった多様なプロンプト戦略を適用した多候補フレームワークLM4Opt RAと,精度向上のための構造化ランキング機構を組み合わせた。
人間の判断とROUGE,BLEU,BERTスコアなどの自動スコアとの相違点を同定した。
しかし、人間の評価には時間がかかり、専門的な専門知識が必要であるため、完全に自動化されたエンドツーエンドのフレームワークでは現実的ではない。
LLM生成応答と基底真理の差を定量化するために,数学的定式化のために設計された自動計量 LLM-Assisted Mathematical Evaluation (LAME) を導入する。
LM4Opt-RAを用いて、Llama-3.1-70BはLAMEスコア0.8007を達成し、他のモデルよりも大きな差を付け、Llama-3.1-8Bが続いた。
ベースラインLLMは有望だが,人間の専門知識に遅れをとどめており,本提案手法はLAMEやその他の指標のベースラインを超越している。
関連論文リスト
- Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - TuRTLe: A Unified Evaluation of LLMs for RTL Generation [0.6010802600885173]
本研究では,主要なRTL生成タスク間でLLMを評価するための統合評価フレームワークTuRTLeを提案する。
オープンLLMの多様なセットをベンチマークし、EDA固有のタスクの長所と短所を分析します。
以上の結果から,DeepSeek R1のような推論モデルの方が,複数の評価基準で常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-03-31T07:43:12Z) - Complex LLM Planning via Automated Heuristics Discovery [48.07520536415374]
複雑な計画タスクのための大規模言語モデル(LLM)の強化を検討する。
我々は,LLMがガイドタイム検索の関数を明示的に生成できる新しい手法である自動推論発見(AutoHD)を提案する。
提案手法はモデルトレーニングや微調整を必要とせず,LLMが生成する関数の明示的な定義は推論過程の解釈可能性と洞察を与える。
論文 参考訳(メタデータ) (2025-02-26T16:52:31Z) - Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。
しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。
人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-17T18:49:25Z) - LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。