論文の概要: Interpretable Mnemonic Generation for Kanji Learning via Expectation-Maximization
- arxiv url: http://arxiv.org/abs/2507.05137v1
- Date: Mon, 07 Jul 2025 15:49:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.493629
- Title: Interpretable Mnemonic Generation for Kanji Learning via Expectation-Maximization
- Title(参考訳): 期待最大化による漢字学習のための解釈可能なMnモン生成
- Authors: Jaewook Lee, Alexander Scarlatos, Andrew Lan,
- Abstract要約: 本稿では,共通ルールの集合によって駆動されるメニーモニックな構築過程を明示的にモデル化する生成フレームワークを提案する。
提案手法は潜在構造と構成規則を学習し,解釈可能な,系統的な調波生成を可能にする。
- 参考スコア(独自算出の注目度): 51.26060172682443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning Japanese vocabulary is a challenge for learners from Roman alphabet backgrounds due to script differences. Japanese combines syllabaries like hiragana with kanji, which are logographic characters of Chinese origin. Kanji are also complicated due to their complexity and volume. Keyword mnemonics are a common strategy to aid memorization, often using the compositional structure of kanji to form vivid associations. Despite recent efforts to use large language models (LLMs) to assist learners, existing methods for LLM-based keyword mnemonic generation function as a black box, offering limited interpretability. We propose a generative framework that explicitly models the mnemonic construction process as driven by a set of common rules, and learn them using a novel Expectation-Maximization-type algorithm. Trained on learner-authored mnemonics from an online platform, our method learns latent structures and compositional rules, enabling interpretable and systematic mnemonics generation. Experiments show that our method performs well in the cold-start setting for new learners while providing insight into the mechanisms behind effective mnemonic creation.
- Abstract(参考訳): 日本語の語彙を学習することは、文字の違いにより、ローマ字の背景から学習する人の課題である。
日本語は、平仮名などの音節を漢字と組み合わせ、中国起源の韻文的文字である。
漢字も複雑で体積も複雑である。
キーワード・ムネモニクスは暗記を支援するための一般的な戦略であり、しばしば漢字の構成構造を用いて、鮮やかな協会を形成する。
近年,学習者を支援するために大規模言語モデル (LLMs) の利用が試みられているが,従来の LLM をベースとしたキーワード音節生成機能はブラックボックスとして機能し,限定的な解釈性を提供している。
そこで本研究では,新しい期待最大化型アルゴリズムを用いて,一組の共通ルールによって駆動されるメニーモニック構築過程を明示的にモデル化し,学習する生成フレームワークを提案する。
本手法は,学習者によるオンラインプラットフォームから学習者によるmnemonicsを学習し,潜在構造と構成規則を学習し,解釈可能かつ体系的なmnemonics生成を可能にする。
実験の結果,本手法は,新しい学習者にとってのコールドスタート環境では有効であり,有効音素生成のメカニズムについて考察した。
関連論文リスト
- Classifying the Unknown: In-Context Learning for Open-Vocabulary Text and Symbol Recognition [3.667678728817253]
文書中の新しいスクリプトパターンのシーケンスを分類するために,Multimodal In-Context Learning (MICL)を活用するマルチモーダルモデルであるRosettaを導入する。
提案手法の重要な強みは,オープン語彙分類を可能にするコンテキスト認識トークンライザ(CAT)を使用することである。
結果として、新しいアルファベットや言語の認識などのアプリケーションをアンロックする。
論文 参考訳(メタデータ) (2025-04-09T12:58:25Z) - Does Incomplete Syntax Influence Korean Language Model? Focusing on Word Order and Case Markers [7.275938266030414]
語順やケースマーカーなどの構文要素は自然言語処理において基本的なものである。
本研究は,韓国語モデルがこの柔軟性を正確に捉えることができるかどうかを考察する。
論文 参考訳(メタデータ) (2024-07-12T11:33:41Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Shuo Wen Jie Zi: Rethinking Dictionaries and Glyphs for Chinese Language
Pre-training [50.100992353488174]
辞書知識と漢字の構造を持つ中国語PLMの意味理解能力を高める新しい学習パラダイムであるCDBERTを紹介する。
我々はCDBERTの2つの中核モジュールを Shuowen と Jiezi と名付け、そこで Shuowen は中国語辞書から最も適切な意味を取り出す過程を指す。
本パラダイムは,従来の中国語PLMのタスク間における一貫した改善を実証する。
論文 参考訳(メタデータ) (2023-05-30T05:48:36Z) - Morphological Analysis of Japanese Hiragana Sentences using the BI-LSTM
CRF Model [0.0]
本研究では,日本語平仮名文に対する形態素解析器のニューラルモデル構築手法を提案する。
形態分析は、テキストデータを単語に分割し、音声の一部などの情報を割り当てる技法である。
論文 参考訳(メタデータ) (2022-01-10T14:36:06Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。