論文の概要: Vocabulary shapes cross-lingual variation of word-order learnability in language models
- arxiv url: http://arxiv.org/abs/2603.19427v1
- Date: Thu, 19 Mar 2026 19:42:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.854693
- Title: Vocabulary shapes cross-lingual variation of word-order learnability in language models
- Title(参考訳): 言語モデルにおける単語順学習可能性の言語間差異の語彙形
- Authors: Jonas Mayer Martins, Jaap Jumelet, Viola Priesemann, Lisa Beinborn,
- Abstract要約: チェコ語のような言語がなぜ自由語順を許すのか、英語のような言語はそうでないのかを研究する。
語順の不規則性の増大は、学習可能性の低下を示唆し、モデル前提を常に引き上げる。
自由語(チェコ語やフィンランド語など)と固定語順言語の粗い区別は、言語間変異を説明できない。
単語とサブワードの語彙の構造は、モデル前提を強く予測する。
- 参考スコア(独自算出の注目度): 6.944578798815993
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Why do some languages like Czech permit free word order, while others like English do not? We address this question by pretraining transformer language models on a spectrum of synthetic word-order variants of natural languages. We observe that greater word-order irregularity consistently raises model surprisal, indicating reduced learnability. Sentence reversal, however, affects learnability only weakly. A coarse distinction of free- (e.g., Czech and Finnish) and fixed-word-order languages (e.g., English and French) does not explain cross-lingual variation. Instead, the structure of the word and subword vocabulary strongly predicts the model surprisal. Overall, vocabulary structure emerges as a key driver of computational word-order learnability across languages.
- Abstract(参考訳): なぜチェコ語のような言語は自由語順を許容するのに対し、英語のような言語は許可しないのか?
本稿では,自然言語の合成語順変種スペクトルを用いたトランスフォーマー言語モデルの事前学習により,この問題に対処する。
語順の不規則性の増大は、学習可能性の低下を示唆し、モデル前提を常に引き上げる。
しかし、文の逆転は学習可能性に弱くしか影響しない。
自由語(チェコ語、フィンランド語)と固定語順言語(例えば、英語、フランス語)の粗い区別は、言語間の変化を説明できない。
代わりに、単語とサブワードの語彙の構造は、そのモデル前提を強く予測する。
全体として、語彙構造は、言語間での計算語順学習の鍵となる要因として現れる。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages [55.157295899188476]
ニューラルマシン翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学ぶ。
本研究では、この仮説を未知の言語からのゼロショット翻訳により検証する。
この設定により、全く見えない言語からのゼロショット翻訳が可能になることを実証する。
論文 参考訳(メタデータ) (2024-08-05T07:58:58Z) - Crosslinguistic word order variation reflects evolutionary pressures of
dependency and information locality [4.869029215261254]
世界の言語の約40%は主目的語順であり、約40%は主目的語順である。
単語順の変動は、依存関係の局所性と情報局所性の競合する圧力のバランスの異なる方法を反映していることを示す。
本研究は,言語間の統語構造と使用法が,限られた認知資源下での効率的なコミュニケーションを支援するのに相応しいことを示唆している。
論文 参考訳(メタデータ) (2022-06-09T02:56:53Z) - Handling Compounding in Mobile Keyboard Input [7.309321705635677]
本稿では,形態的にリッチな言語におけるモバイルユーザのタイピング体験を改善するためのフレームワークを提案する。
スマートフォンのキーボードは典型的には、入力復号化、修正、予測といった言語モデルに依存している機能をサポートしている。
本手法は, 様々な複合言語において, 単語誤り率を約20%削減することを示す。
論文 参考訳(メタデータ) (2022-01-17T15:28:58Z) - Allocating Large Vocabulary Capacity for Cross-lingual Language Model
Pre-training [59.571632468137075]
最近の言語間言語モデルでは,語彙の容量が限られているため,多くの言語が不足していることがわかった。
本稿では,各言語の語彙能力を決定するアルゴリズムであるVoCapを提案する。
この問題に対処するために,k-NNに基づくターゲットサンプリングを提案し,コストの高いソフトマックスを高速化する。
論文 参考訳(メタデータ) (2021-09-15T14:04:16Z) - On the Evolution of Word Order [7.2610922684683645]
最適な言語は固定語順を持つ言語であることを示す。
また,ケースマーカーや名詞動詞の区別などの文に情報を追加することで,単語の順序を固定化する必要がなくなることを示す。
論文 参考訳(メタデータ) (2021-01-23T20:30:17Z) - Improving Multilingual Models with Language-Clustered Vocabularies [8.587129426070979]
本稿では,複数の自動派生言語クラスタの別々に訓練された語彙を組み合わせた多言語語彙生成のための新しい手法を提案する。
我々の実験は、主要なマルチ言語ベンチマークタスクにおける言語間の改善を示す。
論文 参考訳(メタデータ) (2020-10-24T04:49:15Z) - Investigating Cross-Linguistic Adjective Ordering Tendencies with a
Latent-Variable Model [66.84264870118723]
本稿では,多言語形容詞順序付けを潜在変数モデルとして,初めて純粋コーパス駆動モデルを提案する。
我々は普遍的、言語横断的、階層的形容詞順序付け傾向の存在の強い確固たる証拠を提供する。
論文 参考訳(メタデータ) (2020-10-09T18:27:55Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。