論文の概要: Mimir: Large-scale Multilingual Concept Modeling
- arxiv url: http://arxiv.org/abs/2605.25263v1
- Date: Sun, 24 May 2026 21:26:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:19.051314
- Title: Mimir: Large-scale Multilingual Concept Modeling
- Title(参考訳): Mimir: 大規模マルチ言語概念モデリング
- Authors: Elio Musacchio, Lucia Siciliani, Pierpaolo Basile,
- Abstract要約: 我々は、多言語の概念理解と生成のために訓練された1.6B大概念モデルであるMimirを紹介する。
46言語にまたがる大規模多言語事前学習コーパスと,35言語をカバーする大規模多言語・多言語指導訓練データセットを活用する。
- 参考スコア(独自算出の注目度): 1.9881456274482427
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current language modeling approaches are built around tokens. Text corpora are split into tokens, and models are trained by performing computations on these tokens, such as predicting the next token given the preceding ones as context. This paradigm has become the standard in modern language modeling, especially given the outstanding performance obtained by token-based architectures. However, recent works have not only begun to question how language models process and understand meaning from tokens, but also to question whether using higher levels of granularity could advance the research field. This led to the idea of Concept Modeling, that is, to directly train models for next-concept prediction rather than next-token prediction. The goal is to change the input from tokens to concepts, forcing the underlying language model to shift its granularity from fine-grained tokens to broad concepts. In this work, we introduce Mimir, a 1.6B Large Concept Model trained for multilingual concept understanding and generation. We leverage a large-scale multilingual pre-training corpus (38,883,987,240 sentences) spanning 46 languages and a large-scale multi-turn and multilingual instruction-tuning dataset (66,816,428 sentences) covering a total of 35 languages. We extensively evaluate model performance against a language model with a comparable number of parameters.
- Abstract(参考訳): 現在の言語モデリングアプローチはトークンを中心に構築されています。
テキストコーパスはトークンに分割され、先行するトークンをコンテキストとして予測するなど、これらのトークン上で計算を実行することでモデルが訓練される。
このパラダイムは、特にトークンベースのアーキテクチャによって得られる卓越した性能を考えると、現代の言語モデリングにおける標準となっている。
しかし、近年の研究では、言語モデルがどのようにトークンから意味を処理し、理解しているかという問題だけでなく、より高い粒度の使用が研究分野を前進させるかどうかについても疑問が呈されている。
これにより、概念モデリング(concept Modeling)というアイデアが生まれ、次の概念予測ではなく、次の概念予測のためのモデルを直接訓練するようになりました。
目標は、入力をトークンから概念に変更し、基礎となる言語モデルにその粒度をきめ細かいトークンから広い概念にシフトさせることである。
本研究では,多言語概念理解と生成のために訓練された1.6B大概念モデルであるMimirを紹介する。
46言語にまたがる大規模多言語事前学習コーパス(38,883,987,240文)と,合計35言語をカバーする大規模多言語・多言語指導チューニングデータセット(66,816,428文)を利用する。
パラメータ数に匹敵する言語モデルに対して,モデル性能を広範囲に評価する。
関連論文リスト
- A Variational Framework for Improving Naturalness in Generative Spoken Language Models [52.673912922590866]
本稿では,連続した音声属性をエンコードして意味的トークンを拡張できるエンドツーエンドの変分手法を提案する。
提案手法は,手動によるパラ言語的特徴の抽出と選択の必要性を排除している。
ヒトの発声者に応じて、好意的な発話継続を生産する。
論文 参考訳(メタデータ) (2025-06-17T17:58:17Z) - From Bytes to Ideas: Language Modeling with Autoregressive U-Nets [49.16552366851748]
トークン化は入力テキストに一定の粒度を課す。
オートレグレッシブなU-Netを導入し、トレーニング中に独自のトークンを埋め込むことを学びます。
論文 参考訳(メタデータ) (2025-06-17T17:55:11Z) - xVLM2Vec: Adapting LVLM-based embedding models to multilinguality using Self-Knowledge Distillation [2.9998889086656586]
本稿では,言語データに基づいて学習した大規模視覚言語モデルの適応手法を提案し,その性能を向上する。
マルチ言語およびマルチモーダル埋め込みモデルの有効性を評価するためのベンチマークを導入する。
論文 参考訳(メタデータ) (2025-03-12T12:04:05Z) - Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Can Language Beat Numerical Regression? Language-Based Multimodal Trajectory Prediction [23.45902601618188]
言語モデルは、文脈理解と生成性能において印象的な能力を示してきた。
LMTraj (Language-based Multimodal Trajectory predictor) を提案する。
本稿では,言語に基づくモデルが,歩行者の軌道予測に有効なことを示し,既存の数値ベースの予測手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T11:06:44Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Multi-Sense Language Modelling [19.396806939258806]
我々は,次の単語を予測できるだけでなく,文脈における意味を予測できる言語モデルを提案する。
この高い予測粒度は、補助的な記述のようなエンドタスクに有用である。
感覚予測には,定義や単語感覚の例を符号化したグラフ注意ネットワークを利用する。
論文 参考訳(メタデータ) (2020-12-10T16:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。