論文の概要: Adaptive Engram Memory System for Indonesian Language Model: Generative AI Based on TOBA LM for Batak and Minang Language
- arxiv url: http://arxiv.org/abs/2603.10006v1
- Date: Tue, 17 Feb 2026 14:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-15 16:38:22.557347
- Title: Adaptive Engram Memory System for Indonesian Language Model: Generative AI Based on TOBA LM for Batak and Minang Language
- Title(参考訳): インドネシア語モデルのための適応型エングラム記憶システム:BatakとMinang言語のためのTOBA LMに基づく生成AI
- Authors: Hokky Situngkir, Kevin Siringoringo, Andhika Bernard Lumbantobing,
- Abstract要約: TOBA-LMは、12億のパラメータを持つGPT-2アーキテクチャに基づく言語モデルである。
このアーキテクチャは、適応的なn-gramベースのメモリシステムであるEngram Memoryメカニズムと、500,000 x 768の埋め込みテーブルを統合している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study presents TOBA-LM, a trilingual language model based on GPT-2 architecture with 1.2 billion parameters, trained on a corpus encompassing Indonesian, Batak, and Minangkabau using syllabic-agglutinative tokenization. The architecture integrates an Engram Memory mechanism, an adaptive n-gram-based memory system with a 500,000 x 768 embedding table that captures morphological dependencies through bigram and trigram pathways. Empirical results demonstrate a training efficiency of 80%, with the loss value dropping from 6.4 to 1.7996 in only 12,973 steps -- significantly faster than the conventional transformer architecture, which required over 70,000 steps to achieve comparable convergence. These findings confirm that the integration of external statistical memory substantially reduces computational requirements for developing regional language models under limited resources.
- Abstract(参考訳): 本研究は,インドネシア語,バタク語,ミナンカバウ語を含むコーパスでシラビック・アグルチネートトークン化を用いて学習した,12億のパラメータを持つGPT-2アーキテクチャに基づく三言語モデルTOBA-LMを提案する。
このアーキテクチャは、適応的なn-gramベースのメモリシステムであるEngram Memoryメカニズムと、500,000 x 768の埋め込みテーブルを統合し、BigramとTrigramの経路を通じて形態的依存関係をキャプチャする。
実験の結果、トレーニング効率は80%で、損失値はわずか12,973ステップで6.4から1.7996に低下した。
これらの結果から,外部統計メモリの統合により,限られた資源下での地域言語モデル開発における計算要求が大幅に減少することが確認された。
関連論文リスト
- MiniCPM-SALA: Hybridizing Sparse and Linear Attention for Efficient Long-Context Modeling [80.48332380100915]
MiniCPM-SALAは、疎注意の高忠実長文モデリングと線形注意のグローバル効率を統合するハイブリッドモデルである。
1つのNVIDIA A6000D GPUでは、256Kトークンのシーケンス長におけるフルアテンションモデルの推論速度が3.5倍に達する。
論文 参考訳(メタデータ) (2026-02-12T09:37:05Z) - PLaMo 2 Technical Report [9.166942912957724]
本研究では,サンバをベースとしたハイブリッドアーキテクチャを特徴とする,日本語を対象とする大規模言語モデルであるPLaMo 2を紹介する。
PLaMo 2モデルは、日本語のベンチマークで最先端の結果を達成し、命令追従、言語流速、日本語特有の知識において、同様の大きさのオープンモデルよりも優れている。
論文 参考訳(メタデータ) (2025-09-05T08:17:59Z) - Optimized Text Embedding Models and Benchmarks for Amharic Passage Retrieval [49.1574468325115]
トレーニング済みのAmharic BERTとRoBERTaのバックボーンをベースとした,Amharic固有の高密度検索モデルを提案する。
提案したRoBERTa-Base-Amharic-Embedモデル(110Mパラメータ)は,MRR@10の相対的な改善を17.6%達成する。
RoBERTa-Medium-Amharic-Embed (42M)のようなよりコンパクトな派生型は13倍以上小さいまま競争力を維持している。
論文 参考訳(メタデータ) (2025-05-25T23:06:20Z) - Towards Typologically Aware Rescoring to Mitigate Unfaithfulness in Lower-Resource Languages [9.426642998924724]
多言語大言語モデルは、資源制約言語で非忠実な出力を生成する。
このような設定における不誠実さを軽減するため、我々は計算学的に軽量な補助モデルを用いて、より大きなアーキテクチャの出力を再評価する。
我々は,700MB未満のデータに対して,スクラッチから事前訓練した単言語4層BERTモデルにより,忠実な要約を88.33%の平均精度で識別可能であることを示した。
論文 参考訳(メタデータ) (2025-02-24T21:22:19Z) - UrduLLaMA 1.0: Dataset Curation, Preprocessing, and Evaluation in Low-Resource Settings [0.7874708385247353]
本稿では,オープンソースのLlama-3.1-8B-Instructアーキテクチャから派生したUrduLLaMA 1.0を紹介する。
ローランド適応(LoRA)を利用して、41,000Urdu命令と約50,000Urdu翻訳ペアのモデルを微調整する。
論文 参考訳(メタデータ) (2025-02-24T08:38:21Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - GLaM: Efficient Scaling of Language Models with Mixture-of-Experts [84.33607245023049]
我々はGLaM(Generalist Language Model)という言語モデル群を提案し,開発する。
GLaMは、厳密な変種に比べてトレーニングコストを大幅に削減しつつ、モデルのキャパシティを拡大するために、わずかに活性化されたミックス・オブ・エキスパートアーキテクチャを使用する。
GPT-3の訓練に使用するエネルギーの1/3しか消費せず、推論にはフロップの半分しか必要とせず、29のNLPタスクにまたがる全体的なゼロショットとワンショットのパフォーマンスは向上している。
論文 参考訳(メタデータ) (2021-12-13T18:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。