論文の概要: What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty
- arxiv url: http://arxiv.org/abs/2605.12281v1
- Date: Tue, 12 May 2026 15:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.975574
- Title: What makes a word hard to learn? Modeling L1 influence on English vocabulary difficulty
- Title(参考訳): 単語の学習が難しい理由 : L1が英語語彙の難易度に与える影響をモデル化する
- Authors: Jonas Mayer Martins, Zhuojing Huang, Aaricia Herygers, Lisa Beinborn,
- Abstract要約: 最初の言語がスペイン語、ドイツ語、中国語である英語学習者に対しては、語彙の難しさをモデル化する。
我々のモデルは、語彙キュリキュラの設計に使用できる解釈可能なL1調整難易度推定を提供する。
- 参考スコア(独自算出の注目度): 2.454575769268212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What makes a word difficult to learn, and how does the difficulty depend on the learner's native language? We computationally model vocabulary difficulty for English learners whose first language is Spanish, German, or Chinese with gradient-boosted models trained on features related to a word's familiarity (e.g., frequency), meaning, surface form, and cross-linguistic transfer. Using Shapley values, we determine the importance of each feature group. Word familiarity is the dominant feature group shared by all three languages. However, predictions for Spanish- and German-speaking learners rely additionally on orthographic transfer. This transfer mechanism is unavailable to Chinese learners, whose difficulty is shaped by a combination of familiarity and surface features alone. Our models provide interpretable, L1-tailored difficulty estimates that can be used to design vocabulary curricula.
- Abstract(参考訳): 単語の習得が難しいのはなぜか,学習者の母国語にどのように依存するのか?
日本語、ドイツ語、中国語を第一言語とする英語学習者の語彙難易度を、単語の親しみ度(例えば、頻度)、意味、表面形、言語間移動に関連する特徴に基づいて学習した勾配型モデルを用いて計算的にモデル化する。
Shapleyの値を使って、各機能グループの重要性を判断します。
単語の親しみは、3つの言語で共有される主要な特徴群である。
しかし、スペイン語とドイツ語の学習者の予測は、さらに正書法への移行に依存している。
この伝達機構は中国の学習者には利用できないが、難易度は親しみと表面の特徴のみを組み合わせて形成されている。
我々のモデルは、語彙キュリキュラの設計に使用できる解釈可能でL1調整された難易度推定を提供する。
関連論文リスト
- Bringing Up a Bilingual BabyLM: Investigating Multilingual Language Acquisition Using Small-Scale Models [2.475536483276974]
我々は,多種多様な高度に制御された露光条件をシミュレートする手法として,言語モデルトレーニングを用いる。
合成データと機械翻訳を用いて,一致した100Mワードの単言語とバイリンガルのデータセットを作成する。
モデルスケールと測定値全体では、バイリンガルモデルは1つの言語におけるモノリンガルモデルと同様に機能するが、第2言語でも強い性能を示す。
論文 参考訳(メタデータ) (2026-03-31T10:32:25Z) - Vocabulary shapes cross-lingual variation of word-order learnability in language models [6.944578798815993]
チェコ語のような言語がなぜ自由語順を許すのか、英語のような言語はそうでないのかを研究する。
語順の不規則性の増大は、学習可能性の低下を示唆し、モデル前提を常に引き上げる。
自由語(チェコ語やフィンランド語など)と固定語順言語の粗い区別は、言語間変異を説明できない。
単語とサブワードの語彙の構造は、モデル前提を強く予測する。
論文 参考訳(メタデータ) (2026-03-19T19:42:21Z) - Multilingual Amnesia: On the Transferability of Unlearning in Multilingual LLMs [24.59074126514084]
我々は,データアンラーニングと概念アンラーニングという2つの設定の下で,Aya-Expanse 8Bモデルを用いて多言語アンラーニングを研究する。
実際の知識とステレオタイプに関するベンチマークを、翻訳によって10言語に拡張する。
実験の結果,高出力言語では非学習がより安定であり,非対称な伝達効果がタイポロジー関連言語間で観測されることがわかった。
論文 参考訳(メタデータ) (2026-01-09T08:59:42Z) - False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - On the Acquisition of Shared Grammatical Representations in Bilingual Language Models [6.266732217239363]
言語間移動は、現代言語モデルの多言語能力にとって重要であるが、どのように起こるかはよく理解されていない。
第二言語でトレーニングを始めると、モノリンガル言語モデルに何が起こるのかを尋ねる。
共有多言語表現の証拠を見つけるために,人間の文法表現を研究するために用いられる構造プライミングに目を向ける。
論文 参考訳(メタデータ) (2025-03-05T23:27:58Z) - A Distributional Perspective on Word Learning in Neural Language Models [57.41607944290822]
言語モデルにおける単語学習のための広く合意されたメトリクスは存在しない。
我々は、先行研究で研究された分布シグネチャは、重要な分布情報の取得に失敗すると主張している。
我々は、スクラッチから訓練する小さな言語モデルを選択するための学習軌跡を得る。
論文 参考訳(メタデータ) (2025-02-09T13:15:59Z) - Multi-lingual and Multi-cultural Figurative Language Understanding [69.47641938200817]
図形言語は人間のコミュニケーションに浸透するが、NLPでは比較的過小評価されている。
Hindi, Indonesian, Javanese, Kannada, Sundanese, Swahili, Yorubaの7つの多様な言語に関するデータセットを作成しました。
我々のデータセットから,各言語は,同じ領域から派生した言語間で最も高い重なり合いを持つ,図形表現の文化的・地域的概念に依存していることが明らかとなった。
全ての言語は、事前学習データと微調整データの可用性を反映した性能の変化により、英語と比較して大きな欠陥がある。
論文 参考訳(メタデータ) (2023-05-25T15:30:31Z) - Towards continually learning new languages [66.36852845415916]
言語のバッチ学習は経済的に有益だが、大きな課題は破滅的な忘れ方だ。
我々は,破滅的忘れを抑えるために,重量分解特性と弾性重みの固化特性を組み合わせる。
私たちは、すべての言語をゼロからトレーニングするのに比べ、破滅的な忘れものもなく、合理的なパフォーマンスで26の言語を達成しています。
論文 参考訳(メタデータ) (2022-11-21T18:24:34Z) - Cross-Lingual Ability of Multilingual Masked Language Models: A Study of
Language Structure [54.01613740115601]
本稿では,構成順序,構成,単語共起の3つの言語特性について検討する。
我々の主な結論は、構成順序と単語共起の寄与は限定的である一方、構成は言語間移動の成功にとってより重要であるということである。
論文 参考訳(メタデータ) (2022-03-16T07:09:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。