論文の概要: LLM Evaluation Based on Aerospace Manufacturing Expertise: Automated Generation and Multi-Model Question Answering
- arxiv url: http://arxiv.org/abs/2501.17183v2
- Date: Sat, 01 Feb 2025 10:18:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-04 16:07:39.951162
- Title: LLM Evaluation Based on Aerospace Manufacturing Expertise: Automated Generation and Multi-Model Question Answering
- Title(参考訳): 航空宇宙製造専門知識に基づくLCM評価:自動生成と多モデル質問応答
- Authors: Beiming Liu, Zhizhuo Cui, Siteng Hu, Xiaohua Li, Haifeng Lin, Zhengxin Zhang,
- Abstract要約: 本稿では,航空宇宙製造におけるLarge Language Models (LLMs) に適した評価指標について紹介する。
重要な情報は、古典的な航空宇宙製造教科書やガイドラインの詳細なテキスト解析によって抽出される。
難易度の異なる複数の正解を巧みに構成する。
これらの質問に答えるために異なるLCMモデルが使用され、その精度が記録される。
- 参考スコア(独自算出の注目度): 5.426193610598865
- License:
- Abstract: Aerospace manufacturing demands exceptionally high precision in technical parameters. The remarkable performance of Large Language Models (LLMs), such as GPT-4 and QWen, in Natural Language Processing has sparked industry interest in their application to tasks including process design, material selection, and tool information retrieval. However, LLMs are prone to generating "hallucinations" in specialized domains, producing inaccurate or false information that poses significant risks to the quality of aerospace products and flight safety. This paper introduces a set of evaluation metrics tailored for LLMs in aerospace manufacturing, aiming to assess their accuracy by analyzing their performance in answering questions grounded in professional knowledge. Firstly, key information is extracted through in-depth textual analysis of classic aerospace manufacturing textbooks and guidelines. Subsequently, utilizing LLM generation techniques, we meticulously construct multiple-choice questions with multiple correct answers of varying difficulty. Following this, different LLM models are employed to answer these questions, and their accuracy is recorded. Experimental results demonstrate that the capabilities of LLMs in aerospace professional knowledge are in urgent need of improvement. This study provides a theoretical foundation and practical guidance for the application of LLMs in aerospace manufacturing, addressing a critical gap in the field.
- Abstract(参考訳): 航空宇宙製造は技術的パラメーターの精度が極めて高いことを要求している。
GPT-4やQWenのような大規模言語モデル(LLM)の自然言語処理における顕著なパフォーマンスは、プロセス設計、材料選択、ツール情報検索といったタスクへの産業的関心を喚起した。
しかし、LSMは特定の領域で「幻覚」を発生させる傾向があり、不正確な情報や誤った情報を発生させ、航空宇宙製品の品質や飛行安全性に重大なリスクをもたらす。
本稿では,航空機製造におけるLCMに適した評価指標について紹介し,その精度を専門知識に基づく質問に答えることによって評価することを目的とする。
まず、古典的航空宇宙製造教科書やガイドラインの詳細なテキスト解析を通じて、鍵情報を抽出する。
次いで, LLM生成手法を用いて, 難易度が変化する複数の正解を正確に構成する。
その後、これらの質問に答えるために異なるLLMモデルが使用され、それらの精度が記録される。
実験により,航空宇宙分野の専門知識におけるLLMの能力は,即時的な改善の必要性が示唆された。
本研究は,航空機製造におけるLCMの応用に関する理論的基礎と実践的ガイダンスを提供し,この分野における重要なギャップに対処するものである。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey [39.82566660592583]
大規模言語モデル(LLM)は、自然言語理解、テキスト要約、機械翻訳といった様々なタスクにおいて顕著な成功を収めている。
彼らの汎用的な性質は、医療、化学、法的な分析といった専門的な知識を必要とするドメイン固有のアプリケーションにおいて、その効果を制限していることが多い。
これを解決するために、研究者はドメイン固有の知識を統合することでLLMを強化する様々な方法を模索してきた。
論文 参考訳(メタデータ) (2025-02-15T07:43:43Z) - Foundational Large Language Models for Materials Research [22.77591279242839]
大規模言語モデル(LLM)は、自動分析と予測を通じて材料研究を加速する機会を提供する。
本稿では,LLaMAモデルの継続事前学習を通じて発達した材料科学の基礎モデルであるLLaMatについて述べる。
LLaMatは、一般的な言語能力を維持しつつ、材料固有のNLPと構造化情報抽出に優れることを示した。
論文 参考訳(メタデータ) (2024-12-12T18:46:38Z) - From LLMs to LLM-based Agents for Software Engineering: A Survey of Current, Challenges and Future [15.568939568441317]
本稿では,大規模言語モデル (LLM) と LLM をベースとしたソフトウェア工学エージェントの実践とソリューションについて検討する。
特に、要件エンジニアリング、コード生成、自律的な意思決定、ソフトウェア設計、テスト生成、ソフトウェアメンテナンスの6つの主要なトピックを要約します。
我々は、使用するモデルとベンチマークについて論じ、ソフトウェア工学におけるそれらの応用と有効性について包括的に分析する。
論文 参考訳(メタデータ) (2024-08-05T14:01:15Z) - Examining Long-Context Large Language Models for Environmental Review Document Comprehension [10.299869088789363]
長いコンテキストと検索強化世代(RAG)は、最近人気が高まった2つの方法である。
本研究では,ニッチ領域における質問応答(QA)タスクを利用して,これらの手法の利点を検討する。
5つの長文LLMの性能を評価するため, NEPAQuAD1.0ベンチマークを構築した。
論文 参考訳(メタデータ) (2024-07-10T02:33:09Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - ChatSOS: LLM-based knowledge Q&A system for safety engineering [0.0]
本研究では,LLMに基づく安全工学のQ&Aシステムを導入し,モデルの理解と応答精度を向上させる。
我々は、外部知識データベースを組み込むために、即時エンジニアリングを採用し、LLMを最新かつ信頼性の高い情報で強化する。
以上の結果から,外部知識の統合は,奥行き問題解析や自律的なタスク割り当てにおいて,LLMの能力を大幅に向上させることが示唆された。
論文 参考訳(メタデータ) (2023-12-14T03:25:23Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。