論文の概要: A Lightweight Multi-Expert Generative Language Model System for Engineering Information and Knowledge Extraction
- arxiv url: http://arxiv.org/abs/2505.21109v1
- Date: Tue, 27 May 2025 12:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.640918
- Title: A Lightweight Multi-Expert Generative Language Model System for Engineering Information and Knowledge Extraction
- Title(参考訳): 工学情報と知識抽出のための軽量マルチエキスパート生成言語モデルシステム
- Authors: Bogdan Bogachov, Yaoyao Fiona Zhao,
- Abstract要約: Small Language Graph(SLG)は、上記の2つの重要な課題に対処するために設計された軽量適応ソリューションである。
SLGは、Exact Matchメトリックの従来の微調整手法を3倍に超えることができた。
また、グラフアーキテクチャと専門家ノードの小さなサイズは、分散AIシステムにとって可能な機会を提供する。
- 参考スコア(独自算出の注目度): 2.8007688938043622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advancements in domain adaptation techniques for large language models, these methods remain computationally intensive, and the resulting models can still exhibit hallucination issues. Most existing adaptation methods do not prioritize reducing the computational resources required for fine-tuning and inference of language models. Hallucination issues have gradually decreased with each new model release. However, they remain prevalent in engineering contexts, where generating well-structured text with minimal errors and inconsistencies is critical. This work introduces a novel approach called the Small Language Graph (SLG), which is a lightweight adaptation solution designed to address the two key challenges outlined above. The system is structured in the form of a graph, where each node represents a lightweight expert - a small language model fine-tuned on specific and concise texts. The results of this study have shown that SLG was able to surpass conventional fine-tuning methods on the Exact Match metric by 3 times. Additionally, the fine-tuning process was 1.7 times faster compared to that of a larger stand-alone language model. These findings introduce a potential for small to medium-sized engineering companies to confidently use generative AI technologies, such as LLMs, without the necessity to invest in expensive computational resources. Also, the graph architecture and the small size of expert nodes offer a possible opportunity for distributed AI systems, thus potentially diverting the global need for expensive centralized compute clusters.
- Abstract(参考訳): 近年の大規模言語モデルのドメイン適応技術は進歩しているが、これらの手法は依然として計算集約的であり、結果として得られるモデルは幻覚的問題を示すことができる。
既存の適応手法の多くは、言語モデルの微調整や推論に必要な計算資源の削減を優先していない。
新しいモデルリリースごとに、幻覚の問題は徐々に減少している。
しかし、エンジニアリングの文脈では、最小限のエラーと矛盾を伴って十分に構造化されたテキストを生成することが重要である。
この研究は、Small Language Graph (SLG)と呼ばれる新しいアプローチを導入し、上述した2つの重要な課題に対処するために設計された軽量適応ソリューションである。
システムはグラフの形式で構成されており、各ノードは軽量な専門家を表し、特定のテキストと簡潔なテキストに微調整された小さな言語モデルである。
本研究の結果から,SLGはExact Matchの従来の微調整法を3倍に超えることができた。
さらに、微調整処理はスタンドアロンの言語モデルに比べて1.7倍高速であった。
これらの知見は、小規模から中規模のエンジニアリング企業が、高価な計算資源に投資する必要なしに、LSMのような生成AI技術を確実に活用する可能性を示唆している。
また、グラフアーキテクチャと専門家ノードの小さなサイズは、分散AIシステムにチャンスを与えるため、高価な集中型計算クラスタに対する世界的なニーズを分散させる可能性がある。
関連論文リスト
- RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware [0.33707099470112734]
大規模言語モデル(LLM)は現代の人工知能の重要な要素となっている。
本稿では,LLMがスペイン語タスクにおいて優れた結果を得るためにどのように適応できるかを示すユースケースであるRigoChat 2について述べる。
論文 参考訳(メタデータ) (2025-03-11T08:53:53Z) - Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。