論文の概要: MIXAR: Scaling Autoregressive Pixel-based Language Models to Multiple Languages and Scripts
- arxiv url: http://arxiv.org/abs/2604.11575v1
- Date: Mon, 13 Apr 2026 14:53:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.629776
- Title: MIXAR: Scaling Autoregressive Pixel-based Language Models to Multiple Languages and Scripts
- Title(参考訳): MIXAR: 複数の言語とスクリプトに自動回帰的なPixelベースの言語モデルを拡張
- Authors: Chen Hu, Yintao Tai, Antonio Vergari, Frank Keller, Alessandro Suglia,
- Abstract要約: MIXARは、8つの異なる言語で訓練された最初の生成ピクセルベースの言語モデルである。
私たちは、MIXARがトレーニング中に見たことのない言語に対して堅牢であることを示します。
- 参考スコア(独自算出の注目度): 66.21710415920332
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Pixel-based language models are gaining momentum as alternatives to traditional token-based approaches, promising to circumvent tokenization challenges. However, the inherent perceptual diversity across languages poses a significant hurdle for multilingual generalization in pixel space. This paper introduces MIXAR, the first generative pixel-based language model trained on eight different languages utilizing a range of different scripts. We empirically evaluate MIXAR against previous pixel-based models as well as comparable tokenizer-based models, demonstrating substantial performance improvement on discriminative and generative multilingual tasks. Additionally, we show how MIXAR is robust to languages never seen during the training. These results are further strengthened when scaling the model to 0.5B parameters which not only improves its capabilities in generative tasks like LAMBADA but also its robustness when challenged with input perturbations such as orthographic attacks.
- Abstract(参考訳): 従来のトークンベースのアプローチに代わるものとして、Pixelベースの言語モデルは勢いを増し、トークン化の課題を回避することを約束している。
しかし、言語間の知覚的多様性は、画素空間における多言語一般化にとって重要なハードルとなる。
本稿では,8つの異なる言語で訓練された最初の生成画素ベース言語モデルMIXARを紹介する。
我々は,従来の画素ベースモデルと同等のトークン化器ベースモデルに対してMIXARを実験的に評価し,識別的および生成的多言語タスクにおいて大幅な性能向上を示す。
さらに、MIXARはトレーニング中に見たことのない言語に対して堅牢であることを示す。
これらの結果は、LAMBADAのような生成タスクにおける能力を向上するだけでなく、正書法攻撃のような入力摂動に挑戦する際の頑健性も向上する0.5Bパラメータにモデルをスケールする場合にさらに強化される。
関連論文リスト
- Enhancing Robustness of Autoregressive Language Models against Orthographic Attacks via Pixel-based Approach [51.95266411355865]
自己回帰言語モデルは、正書法攻撃に弱い。
この脆弱性は、サブワードトークン化器とその埋め込みに固有の語彙外問題に起因している。
本稿では,単語を個々の画像としてレンダリングすることで,テキストベースの埋め込みをピクセルベースの表現に置き換える,画素ベースの生成言語モデルを提案する。
論文 参考訳(メタデータ) (2025-08-28T20:48:38Z) - Overcoming Vocabulary Constraints with Pixel-level Fallback [9.753745943931207]
代名詞のトークン化には、計算効率と語彙カバレッジのバランスが必要である。
画素として描画されたテキストから入力埋め込みを生成する語彙自由エンコーダを提案する。
論文 参考訳(メタデータ) (2025-04-02T20:50:31Z) - Evaluating Pixel Language Models on Non-Standardized Languages [24.94386050975835]
ピクセルベースのモデルは、テキストをパッチに分割されたイメージに変換し、連続的な語彙表現を可能にする。
ケーススタディとしてドイツ語を用いて,様々な構文的・意味的タスクにおける画素ベースモデルとトークンベースモデルの比較を行った。
論文 参考訳(メタデータ) (2024-12-12T09:11:45Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。