論文の概要: CAMB: A comprehensive industrial LLM benchmark on civil aviation maintenance
- arxiv url: http://arxiv.org/abs/2508.20420v1
- Date: Thu, 28 Aug 2025 04:42:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.017263
- Title: CAMB: A comprehensive industrial LLM benchmark on civil aviation maintenance
- Title(参考訳): CAMB:民間航空整備に関する総合的産業用LLMベンチマーク
- Authors: Feng Zhang, Chengjie Pang, Yuehan Zhang, Chenyu Luo,
- Abstract要約: 我々は,民間航空の整備に特化して設計された産業レベルのベンチマークを提案し,開発する。
このベンチマークは2つの目的を果たす: 民間航空のメンテナンスにおけるLCMの能力を測定するための標準化されたツールを提供する。
これらの欠陥を指摘することによって、このベンチマークは目標とする改善努力の基盤を確立する。
- 参考スコア(独自算出の注目度): 8.320611286211374
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Civil aviation maintenance is a domain characterized by stringent industry standards. Within this field, maintenance procedures and troubleshooting represent critical, knowledge-intensive tasks that require sophisticated reasoning. To address the lack of specialized evaluation tools for large language models (LLMs) in this vertical, we propose and develop an industrial-grade benchmark specifically designed for civil aviation maintenance. This benchmark serves a dual purpose: It provides a standardized tool to measure LLM capabilities within civil aviation maintenance, identifying specific gaps in domain knowledge and complex reasoning. By pinpointing these deficiencies, the benchmark establishes a foundation for targeted improvement efforts (e.g., domain-specific fine-tuning, RAG optimization, or specialized prompt engineering), ultimately facilitating progress toward more intelligent solutions within civil aviation maintenance. Our work addresses a significant gap in the current LLM evaluation, which primarily focuses on mathematical and coding reasoning tasks. In addition, given that Retrieval-Augmented Generation (RAG) systems are currently the dominant solutions in practical applications , we leverage this benchmark to evaluate existing well-known vector embedding models and LLMs for civil aviation maintenance scenarios. Through experimental exploration and analysis, we demonstrate the effectiveness of our benchmark in assessing model performance within this domain, and we open-source this evaluation benchmark and code to foster further research and development:https://github.com/CamBenchmark/cambenchmark
- Abstract(参考訳): 民間航空の整備は厳しい産業標準によって特徴づけられる領域である。
この分野では、メンテナンス手順とトラブルシューティングは、高度な推論を必要とする、重要で知識集約的なタスクを表している。
本研究は, 大規模言語モデル(LLM)の専門的評価ツールの欠如に対処するため, 民間航空整備に特化して設計された産業レベルのベンチマークを提案し, 開発する。
このベンチマークは2つの目的を果たす: 民間航空のメンテナンスにおいてLLMの能力を測定するための標準化されたツールを提供し、ドメイン知識と複雑な推論における特定のギャップを特定する。
これらの欠陥を指摘することによって、このベンチマークは目標とする改善努力(例えば、ドメイン固有の微調整、RAG最適化、または特殊プロンプトエンジニアリング)の基礎を確立し、最終的には民間航空整備におけるよりインテリジェントなソリューションへの前進を促進する。
我々の研究は、数学的およびコーディング推論タスクに主に焦点をあてた、現在のLLM評価における大きなギャップに対処する。
さらに,現在RAG(Retrieval-Augmented Generation)システムが実用化において主流のソリューションであることを考慮し,このベンチマークを利用して,既知のベクトル埋め込みモデルとLLMを民間航空整備シナリオに適用して評価する。
実験的な調査と分析を通じて、この領域におけるモデルパフォーマンスの評価におけるベンチマークの有効性を実証し、この評価ベンチマークとコードをオープンソース化して、さらなる研究と開発を促進する。
関連論文リスト
- MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - ThinkGeo: Evaluating Tool-Augmented Agents for Remote Sensing Tasks [54.52092001110694]
ThinkGeoは、構造化ツールの使用とマルチステップ計画を通じて、リモートセンシングタスクにおけるツール拡張エージェントを評価するために設計されたベンチマークである。
ThinkGeoは、ツール-インタラクションのパラダイムにインスパイアされたもので、さまざまな現実世界のアプリケーションにまたがる人間のクエリを含んでいる。
分析の結果、ツールの精度とモデル間の計画整合性に顕著な相違が明らかになった。
論文 参考訳(メタデータ) (2025-05-29T17:59:38Z) - Assessing and Advancing Benchmarks for Evaluating Large Language Models in Software Engineering Tasks [13.736881548660422]
大規模言語モデル(LLM)は、ソフトウェア工学(SE)で人気が高まっている。
この分野での有効性を 理解するためには 有効性の評価が不可欠です
本稿では、291ベンチマークの徹底的なレビューを行い、どのベンチマークが利用可能か、どのようにベンチマークを構築しているか、これらのベンチマークの将来展望の3つの主要な側面に対処する。
論文 参考訳(メタデータ) (2025-05-13T18:45:10Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。