論文の概要: Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size?
- arxiv url: http://arxiv.org/abs/2509.02225v1
- Date: Tue, 02 Sep 2025 11:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:04.01386
- Title: Towards Fundamental Language Models: Does Linguistic Competence Scale with Model Size?
- Title(参考訳): 基本言語モデルへ向けて: 言語能力はモデルサイズでスケールするか?
- Authors: Jaime Collado-Montañez, L. Alfonso Ureña-López, Arturo Montejo-Ráez,
- Abstract要約: 本稿では,基礎言語モデル(FLM)のパラダイムを導入し,実証的に支援する。
我々は,言語能力,外的事実知識,内的事実知識の3次元にわたる135Mから32Bパラメータのモデルを評価する。
- 参考スコア(独自算出の注目度): 1.7915158401181968
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models offer impressive language capabilities but suffer from well-known limitations, including hallucinations, biases, privacy concerns, and high computational costs. These issues are largely driven by the combination of linguistic competence and factual memorization within a single monolithic model. This paper introduces and empirically supports the Fundamental Language Model (FLM) paradigm, which advocates for smaller, linguistically competent models that offload factual retrieval to external tools. We evaluate models ranging from 135M to 32B parameters across three dimensions: linguistic competence, external factual knowledge, and internal factual knowledge. Our findings reveal that while both linguistic competence and factual knowledge improve with scale, internal factual knowledge grows significantly faster, suggesting that model size is more closely tied to memorization than to core language ability. These results support a modular approach to language modeling, where compact, linguistically proficient models serve as the foundation for tool-augmented systems. The FLM paradigm offers a path toward more efficient, interpretable, and sustainable NLP solutions.
- Abstract(参考訳): 大きな言語モデルは印象的な言語機能を提供するが、幻覚、バイアス、プライバシーの懸念、高い計算コストなど、よく知られた制限に悩まされている。
これらの問題は、言語能力と単一のモノリシックモデルにおける事実記憶の組み合わせによって主に引き起こされる。
本稿では,事実検索を外部ツールにオフロードするより小型で言語的に有能なモデルを提唱する,基礎言語モデル(FLM)パラダイムを紹介し,実証的に支援する。
我々は,言語能力,外的事実知識,内的事実知識の3次元にわたる135Mから32Bパラメータのモデルを評価する。
以上の結果から,言語能力と事実知識の両方がスケールとともに向上する一方で,内的事実知識は大幅に向上し,モデルサイズがコア言語能力よりも記憶に密接な関係があることが示唆された。
これらの結果は、コンパクトで言語的に熟練したモデルがツール拡張システムの基盤となる、言語モデリングに対するモジュラーアプローチを支持する。
FLMパラダイムは、より効率的で解釈可能で持続可能なNLPソリューションへの道を提供する。
関連論文リスト
- Aligning Knowledge Graphs and Language Models for Factual Accuracy [7.205708660952737]
本稿では,ALIGNed-LLMを提案する。
我々は、TransEのようなトレーニング済みの知識グラフ埋め込み(KGE)モデルとトレーニング可能なプロジェクション層からの埋め込みを使用して、エンティティとテキストの埋め込みを調整します。
論文 参考訳(メタデータ) (2025-07-17T08:15:50Z) - Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Proceedings of the First International Workshop on Next-Generation Language Models for Knowledge Representation and Reasoning (NeLaMKRR 2024) [16.282850445579857]
推論は人間の知性の本質的な要素であり、批判的に考える能力において基本的な役割を果たす。
自然言語処理における最近の進歩は、トランスフォーマーに基づく言語モデルの出現とともに、これらのモデルが推論能力を示す可能性を示唆している。
言語モデルにおける推論について議論が続いているが、これらのモデルが実際に推論できる程度に注目することは容易ではない。
論文 参考訳(メタデータ) (2024-10-07T02:31:47Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Dissociating language and thought in large language models [52.39241645471213]
大規模言語モデル(LLM)は、人間の言語を習得する上で、今までに最も近いモデルである。
我々は、この区別を人間の神経科学に根ざし、形式的、機能的な能力は異なる神経機構に依存していることを示した。
LLMは形式的能力は驚くほど優れているが、機能的能力のタスクにおける性能はいまだに不明瞭である。
論文 参考訳(メタデータ) (2023-01-16T22:41:19Z) - Curriculum: A Broad-Coverage Benchmark for Linguistic Phenomena in
Natural Language Understanding [1.827510863075184]
Curriculumは広範囲言語現象の評価のためのNLIベンチマークの新しいフォーマットである。
この言語フェノメナ駆動型ベンチマークは、モデル行動の診断とモデル学習品質の検証に有効なツールであることを示す。
論文 参考訳(メタデータ) (2022-04-13T10:32:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。