論文の概要: Flexing in 73 Languages: A Single Small Model for Multilingual Inflection
- arxiv url: http://arxiv.org/abs/2510.23114v1
- Date: Mon, 27 Oct 2025 08:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.495317
- Title: Flexing in 73 Languages: A Single Small Model for Multilingual Inflection
- Title(参考訳): 73言語でのフレージング:多言語インフレクションのための1つの小さなモデル
- Authors: Tomáš Sourada, Jana Straková,
- Abstract要約: 多言語インフレクションに対するコンパクトな単一モデルアプローチを提案する。
私たちのモデルは軽量で、目に見えない単語に対して堅牢で、ほとんどの言語でモノリンガルベースラインよりも優れています。
我々の研究は、オープンソース、汎用、多言語形態素インフレクションシステムの欠如に対処している。
- 参考スコア(独自算出の注目度): 0.5934049163128877
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present a compact, single-model approach to multilingual inflection, the task of generating inflected word forms from base lemmas to express grammatical categories. Our model, trained jointly on data from 73 languages, is lightweight, robust to unseen words, and outperforms monolingual baselines in most languages. This demonstrates the effectiveness of multilingual modeling for inflection and highlights its practical benefits: simplifying deployment by eliminating the need to manage and retrain dozens of separate monolingual models. In addition to the standard SIGMORPHON shared task benchmarks, we evaluate our monolingual and multilingual models on 73 Universal Dependencies (UD) treebanks, extracting lemma-tag-form triples and their frequency counts. To ensure realistic data splits, we introduce a novel frequency-weighted, lemma-disjoint train-dev-test resampling procedure. Our work addresses the lack of an open-source, general-purpose, multilingual morphological inflection system capable of handling unseen words across a wide range of languages, including Czech. All code is publicly released at: https://github.com/tomsouri/multilingual-inflection.
- Abstract(参考訳): 本稿では,多言語インフレクションに対するコンパクトな単一モデルアプローチを提案する。
我々のモデルは73言語からのデータに基づいて共同で訓練され、軽量で、目に見えない単語に頑健で、ほとんどの言語で単言語ベースラインよりも優れています。
これは、インフレクションのための多言語モデリングの有効性を示し、その実践的な利点を強調している。
標準のSIGMORPHON共有タスクベンチマークに加えて、73のUniversal Dependencies(UD)ツリーバンク上での単言語モデルと多言語モデルの評価を行い、レムマタグ三重項とその頻度を抽出した。
現実的なデータ分割を保証するため,新しい周波数重み付きレムマ結合型列車デフテスト再サンプリング手法を提案する。
我々の研究は、チェコ語を含む幅広い言語で目に見えない単語を処理できる、オープンソースで汎用な多言語形態変化システムがないことに対処している。
すべてのコードは、https://github.com/tomsouri/multilingual-inflection.comで公開されている。
関連論文リスト
- Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Detecting Languages Unintelligible to Multilingual Models through Local
Structure Probes [15.870989191524094]
我々は、言語間モデルでよく理解されていない言語を検出するために、未理解のテキストのみを必要とする一般的なアプローチを開発する。
我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に無関心であるなら、その言語について限られた理解を持つ可能性が高いという仮説から導かれる。
論文 参考訳(メタデータ) (2022-11-09T16:45:16Z) - Lifting the Curse of Multilinguality by Pre-training Modular
Transformers [72.46919537293068]
多言語事前訓練されたモデルは、多言語間のパフォーマンスが低下する、多言語間の呪いに苦しむ。
言語固有のモジュールを導入し、言語定数当たりのトレーニング可能なパラメータの総数を保ちながら、モデルの総容量を拡大できるようにします。
我々のアプローチは、測定可能な性能低下のないポストホック言語の追加を可能にし、モデルの使用を事前訓練された言語セットに制限しない。
論文 参考訳(メタデータ) (2022-05-12T17:59:56Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Specializing Multilingual Language Models: An Empirical Study [50.7526245872855]
事前訓練された多言語モデルからの文脈化語表現は、自然言語タスクに対処するデファクトスタンダードとなっている。
これらのモデルではまれに、あるいは一度も見られない言語では、そのようなモデルを直接使用すると、最適な表現やデータの使用につながることが多い。
論文 参考訳(メタデータ) (2021-06-16T18:13:55Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z) - Language-agnostic Multilingual Modeling [23.06484126933893]
我々は,言語に依存しない多言語ASRシステムを構築し,多対一のトランスデューサを用いて,すべての言語を1つの書き起こしシステムに変換する。
我々は,ヒンディー語,ベンガル語,タミル語,カナダ語の4つの言語を用いて,言語に依存しない多言語モデルを用いて,単語誤り率(WER)を最大10%削減できることを示す。
論文 参考訳(メタデータ) (2020-04-20T18:57:43Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。