論文の概要: A Lightweight Multi-Expert Generative Language Model System for Engineering Information and Knowledge Extraction
- arxiv url: http://arxiv.org/abs/2505.21109v1
- Date: Tue, 27 May 2025 12:31:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.640918
- Title: A Lightweight Multi-Expert Generative Language Model System for Engineering Information and Knowledge Extraction
- Title(参考訳): 工学情報と知識抽出のための軽量マルチエキスパート生成言語モデルシステム
- Authors: Bogdan Bogachov, Yaoyao Fiona Zhao,
- Abstract要約: Small Language Graph(SLG)は、上記の2つの重要な課題に対処するために設計された軽量適応ソリューションである。
SLGは、Exact Matchメトリックの従来の微調整手法を3倍に超えることができた。
また、グラフアーキテクチャと専門家ノードの小さなサイズは、分散AIシステムにとって可能な機会を提供する。
- 参考スコア(独自算出の注目度): 2.8007688938043622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent advancements in domain adaptation techniques for large language models, these methods remain computationally intensive, and the resulting models can still exhibit hallucination issues. Most existing adaptation methods do not prioritize reducing the computational resources required for fine-tuning and inference of language models. Hallucination issues have gradually decreased with each new model release. However, they remain prevalent in engineering contexts, where generating well-structured text with minimal errors and inconsistencies is critical. This work introduces a novel approach called the Small Language Graph (SLG), which is a lightweight adaptation solution designed to address the two key challenges outlined above. The system is structured in the form of a graph, where each node represents a lightweight expert - a small language model fine-tuned on specific and concise texts. The results of this study have shown that SLG was able to surpass conventional fine-tuning methods on the Exact Match metric by 3 times. Additionally, the fine-tuning process was 1.7 times faster compared to that of a larger stand-alone language model. These findings introduce a potential for small to medium-sized engineering companies to confidently use generative AI technologies, such as LLMs, without the necessity to invest in expensive computational resources. Also, the graph architecture and the small size of expert nodes offer a possible opportunity for distributed AI systems, thus potentially diverting the global need for expensive centralized compute clusters.
- Abstract(参考訳): 近年の大規模言語モデルのドメイン適応技術は進歩しているが、これらの手法は依然として計算集約的であり、結果として得られるモデルは幻覚的問題を示すことができる。
既存の適応手法の多くは、言語モデルの微調整や推論に必要な計算資源の削減を優先していない。
新しいモデルリリースごとに、幻覚の問題は徐々に減少している。
しかし、エンジニアリングの文脈では、最小限のエラーと矛盾を伴って十分に構造化されたテキストを生成することが重要である。
この研究は、Small Language Graph (SLG)と呼ばれる新しいアプローチを導入し、上述した2つの重要な課題に対処するために設計された軽量適応ソリューションである。
システムはグラフの形式で構成されており、各ノードは軽量な専門家を表し、特定のテキストと簡潔なテキストに微調整された小さな言語モデルである。
本研究の結果から,SLGはExact Matchの従来の微調整法を3倍に超えることができた。
さらに、微調整処理はスタンドアロンの言語モデルに比べて1.7倍高速であった。
これらの知見は、小規模から中規模のエンジニアリング企業が、高価な計算資源に投資する必要なしに、LSMのような生成AI技術を確実に活用する可能性を示唆している。
また、グラフアーキテクチャと専門家ノードの小さなサイズは、分散AIシステムにチャンスを与えるため、高価な集中型計算クラスタに対する世界的なニーズを分散させる可能性がある。
関連論文リスト
- Syntactic and Semantic Control of Large Language Models via Sequential Monte Carlo [90.78001821963008]
広い範囲のLMアプリケーションは、構文的制約や意味論的制約に適合するテキストを生成する必要がある。
我々は、連続モンテカルロ(SMC)に基づく制御LM生成のためのアーキテクチャを開発する。
我々のシステムはLew et al. (2023) のフレームワーク上に構築されており、言語モデル確率型プログラミング言語と統合されている。
論文 参考訳(メタデータ) (2025-04-17T17:49:40Z) - RigoChat 2: an adapted language model to Spanish using a bounded dataset and reduced hardware [0.33707099470112734]
大規模言語モデル(LLM)は現代の人工知能の重要な要素となっている。
本稿では,LLMがスペイン語タスクにおいて優れた結果を得るためにどのように適応できるかを示すユースケースであるRigoChat 2について述べる。
論文 参考訳(メタデータ) (2025-03-11T08:53:53Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Building an Efficient Multilingual Non-Profit IR System for the Islamic Domain Leveraging Multiprocessing Design in Rust [0.0]
本研究は、イスラムドメインのための多言語非営利IRシステムの開発に焦点を当てている。
ドメイン適応の継続事前学習やモデルサイズ削減のための言語削減といった手法を用いて,軽量な多言語検索モデルを構築した。
論文 参考訳(メタデータ) (2024-11-09T11:37:18Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - A Cohesive Distillation Architecture for Neural Language Models [0.0]
自然言語処理の最近のトレンドは、言語モデル(LM)のサイズが指数関数的に増加することである。
本研究では,大規模モデルの効率的な代替手段を提供するために,知識蒸留法(KD)について検討する。
論文 参考訳(メタデータ) (2023-01-12T08:01:53Z) - I2D2: Inductive Knowledge Distillation with NeuroLogic and
Self-Imitation [89.38161262164586]
本稿では,ジェネリック生成の課題に着目し,コモンセンス知識の生成モデルについて検討する。
我々は,西欧の記号的知識蒸留を緩やかに追従する新しいコモンセンス蒸留フレームワークであるI2D2を紹介する。
我々の研究はジェネリックの新たなコーパス、Gen-A-tomicに繋がる。
論文 参考訳(メタデータ) (2022-12-19T04:47:49Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。