論文の概要: Evaluating LLM Reasoning in the Operations Research Domain with ORQA
- arxiv url: http://arxiv.org/abs/2412.17874v2
- Date: Sun, 09 Feb 2025 16:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:27:15.864329
- Title: Evaluating LLM Reasoning in the Operations Research Domain with ORQA
- Title(参考訳): ORQAを用いた運用研究領域におけるLLM推論の評価
- Authors: Mahdi Mostajabdaveh, Timothy T. Yu, Samarendra Chandan Bindu Dash, Rindranirina Ramamonjison, Jabo Serge Byusa, Giuseppe Carenini, Zirui Zhou, Yong Zhang,
- Abstract要約: 我々は,大規模言語モデル(LLM)の一般化能力を評価するために設計された新しいベンチマークであるOperations Research Question Answering(ORQA)を導入し,適用する。
このデータセットは、数学モデルを構築するために多段階推論を必要とする実世界の最適化問題を特徴としている。
LLaMA 3.1、DeepSeek、MixtralなどのオープンソースLLMの評価では、その質素な性能が明らかにされ、専門技術ドメインへの一般化能力のギャップが浮かび上がっている。
- 参考スコア(独自算出の注目度): 19.72699080797411
- License:
- Abstract: In this paper, we introduce and apply Operations Research Question Answering (ORQA), a new benchmark designed to assess the generalization capabilities of Large Language Models (LLMs) in the specialized technical domain of Operations Research (OR). This benchmark evaluates whether LLMs can emulate the knowledge and reasoning skills of OR experts when confronted with diverse and complex optimization problems. The dataset, developed by OR experts, features real-world optimization problems that demand multistep reasoning to construct their mathematical models. Our evaluations of various open source LLMs, such as LLaMA 3.1, DeepSeek, and Mixtral, reveal their modest performance, highlighting a gap in their ability to generalize to specialized technical domains. This work contributes to the ongoing discourse on LLMs generalization capabilities, offering valuable insights for future research in this area. The dataset and evaluation code are publicly available.
- Abstract(参考訳): 本稿では,オペレーショナル・リサーチ(OR)専門分野におけるLarge Language Models(LLM)の一般化能力を評価するための新しいベンチマークであるOperations Research Question Answering(ORQA)を紹介し,適用する。
このベンチマークは、多種多様な複雑な最適化問題に直面した場合、LLMがORエキスパートの知識と推論スキルをエミュレートできるかどうかを評価する。
ORの専門家によって開発されたこのデータセットは、数学モデルを構築するために多段階推論を必要とする実世界の最適化問題を特徴としている。
LLaMA 3.1, DeepSeek, Mixtral などのオープンソース LLM の評価では,その質素な性能が明らかにされ, 専門分野への一般化能力の差が浮き彫りになっている。
この研究は、LLMの一般化能力に関する議論の継続に寄与し、この分野における将来の研究に貴重な洞察を提供する。
データセットと評価コードは公開されている。
関連論文リスト
- EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Are Expert-Level Language Models Expert-Level Annotators? [17.06186816803593]
本研究では,データアノテータとしてのLSMが専門知識を必要とする領域でどの程度機能するかを検討する。
我々の知る限り、我々はLSMを専門家レベルのデータアノテータとして初めて体系的に評価した。
論文 参考訳(メタデータ) (2024-10-04T09:17:09Z) - SpecEval: Evaluating Code Comprehension in Large Language Models via Program Specifications [12.683365968483807]
プログラム仕様を用いて,大規模言語モデルにおけるコード理解を評価するためのSpecEvalを提案する。
プログラムのセマンティクスを表現し、徹底的な評価を行うために、正式な仕様を採用する。
特に、4つの仕様関連タスクは、基本的なレベルから高度なレベルまでLLMの能力を評価するように設計されている。
論文 参考訳(メタデータ) (2024-09-19T16:08:39Z) - Exploring the True Potential: Evaluating the Black-box Optimization Capability of Large Language Models [32.859634302766146]
大規模言語モデル (LLM) は自然言語処理タスクにおいて例外的な性能を示した。
本稿では,LLMの最適化の可能性について深い知見を提供する。
本研究は,LLMの最適化における限界と利点を明らかにした。
論文 参考訳(メタデータ) (2024-04-09T13:17:28Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Exploring the Potential of Large Language Models in Computational Argumentation [54.85665903448207]
大規模言語モデル (LLM) は、文脈を理解し、自然言語を生成するという印象的な能力を実証している。
この研究は、ChatGPT、Flanモデル、LLaMA2モデルなどのLLMをゼロショットと少数ショットの両方で評価することを目的としている。
論文 参考訳(メタデータ) (2023-11-15T15:12:15Z) - Through the Lens of Core Competency: Survey on Evaluation of Large
Language Models [27.271533306818732]
大規模言語モデル(LLM)は優れた性能と幅広い実用性を持っている。
既存の評価タスクは、現実世界のシナリオにおける幅広いアプリケーションに追いつくのは難しい。
LLMの4つのコア能力は、推論、知識、信頼性、安全性などである。
この能力アーキテクチャの下では、類似したタスクを組み合わせて対応する能力を反映し、新しいタスクをシステムに簡単に追加することができる。
論文 参考訳(メタデータ) (2023-08-15T17:40:34Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。