論文の概要: Preferences for Idiomatic Language are Acquired Slowly -- and Forgotten Quickly: A Case Study on Swedish
- arxiv url: http://arxiv.org/abs/2602.03484v1
- Date: Tue, 03 Feb 2026 12:57:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.45411
- Title: Preferences for Idiomatic Language are Acquired Slowly -- and Forgotten Quickly: A Case Study on Swedish
- Title(参考訳): 慣用的言語はゆっくりと習得され、すぐに忘れられる:スウェーデン語を事例として
- Authors: Jenny Kunz,
- Abstract要約: 本研究では,言語モデルがどのようにテクティビズムの嗜好を発達させるかを検討する。
言語的受容性については、既存のベンチマークを最小のペア形式に適応させる。
本研究は,他の言語能力よりも,慣用的能力の出現が遅いことを示唆している。
- 参考スコア(独自算出の注目度): 0.6599344783327054
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this study, we investigate how language models develop preferences for \textit{idiomatic} as compared to \textit{linguistically acceptable} Swedish, both during pretraining and when adapting a model from English to Swedish. To do so, we train models on Swedish from scratch and by fine-tuning English-pretrained models, probing their preferences at various checkpoints using minimal pairs that differ in linguistic acceptability or idiomaticity. For linguistic acceptability, we adapt existing benchmarks into a minimal-pair format. To assess idiomaticity, we introduce two novel datasets: one contrasting conventionalized idioms with plausible variants, and another contrasting idiomatic Swedish with Translationese. Our findings suggest that idiomatic competence emerges more slowly than other linguistic abilities, including grammatical and lexical correctness. While longer training yields diminishing returns for most tasks, idiom-related performance continues to improve, particularly in the largest model tested (8B). However, instruction tuning on data machine-translated from English -- the common approach for languages with little or no native instruction data -- causes models to rapidly lose their preference for idiomatic language.
- Abstract(参考訳): 本研究では,言語モデルが,事前学習時と英語からスウェーデン語への適応時の両方において,<textit{idiomatic} の好みをスウェーデン語と比較する方法について検討した。
そのためにスウェーデンのモデルをスクラッチからトレーニングし、言語的受容性や慣用性が異なる最小のペアを用いて、様々なチェックポイントで好みを探索する。
言語的受容性については、既存のベンチマークを最小のペア形式に適応させる。
慣用性を評価するために、2つの新しいデータセットを紹介した。1つは従来の慣用句と可塑性変種を対比し、もう1つはスウェーデン語と翻訳文を対比する。
本研究は, 文法的, 語彙的正当性を含む他の言語能力よりも, 慣用的能力の出現が遅いことを示唆する。
より長いトレーニングでは、ほとんどのタスクではリターンが低下するが、イディオム関連のパフォーマンスは改善され続けており、特に最大(8B)のモデルでテストされている。
しかし、ほとんどあるいは全くネイティブな命令データを持たない言語の一般的なアプローチである、英語から翻訳されたデータマシン上でのインストラクションチューニングは、モデルが慣用的な言語を好むことを急速に失わせる。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - Adapting Language Models to Indonesian Local Languages: An Empirical Study of Language Transferability on Zero-Shot Settings [1.1556013985948772]
インドネシアの低リソース言語への事前学習言語モデルの転送性を評価する。
私たちはターゲット言語を、見る、見る、見る、見る、見えない3つのカテゴリに分類します。
マルチ言語モデルは、目に見える言語で、部分的に見られる言語では適度に、目に見えない言語では劣る。
対象言語にラベル付きデータを必要としないため,MAD-Xは性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-07-02T12:17:55Z) - PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment [68.20851615263953]
大規模な言語モデルは、英語中心の事前訓練にもかかわらず、合理的な多言語能力を示す。
これらのモデルにおける自発的な多言語アライメントは弱く、不満足な言語間移動と知識共有をもたらす。
言語モデル事前学習に先立って多言語アライメントを確立するフレームワークであるPreAlignを提案する。
論文 参考訳(メタデータ) (2024-07-23T06:59:53Z) - Robustifying Language Models with Test-Time Adaptation [17.96043752001886]
大規模言語モデルは、多くの言語タスクに対して最先端のパフォーマンスを達成した。
これらは、言語モデルを騙すように最適化された文であるが、人間に類似した意味を持つ、敵対的な言語の例では失敗する。
入力文をマスキングされた単語からの予測に適応させることで,多くの言語敵対攻撃を逆転させることができることを示す。
論文 参考訳(メタデータ) (2023-10-29T22:37:54Z) - Accidental Learners: Spoken Language Identification in Multilingual
Self-Supervised Models [11.439430077017635]
事前学習された音声モデルは,下位層における言語識別情報を最適に符号化する。
これらの層から得られる埋め込みは、目に見えない言語を分類するのに非常に堅牢であることを示す。
NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。
論文 参考訳(メタデータ) (2022-11-09T18:53:59Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。