論文の概要: Predicting Contextual Informativeness for Vocabulary Learning using Deep Learning
- arxiv url: http://arxiv.org/abs/2602.18326v1
- Date: Fri, 20 Feb 2026 16:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 18:01:41.379966
- Title: Predicting Contextual Informativeness for Vocabulary Learning using Deep Learning
- Title(参考訳): 深層学習を用いた語彙学習における文脈インフォームネスの予測
- Authors: Tao Wu, Adam Kapelner,
- Abstract要約: 本稿では,高校生を対象とした第1言語語彙指導のために,情報的文脈例(qucontexts)を自動的に識別する,近代的なディープラーニングシステムについて述べる。
i)MPNetの均一な文脈化埋め込みを用いた教師なし類似性に基づく戦略,(ii)命令認識に基づく教師付きフレームワーク,非線形回帰ヘッドを用いた微調整Qwen3埋め込み,(iii)モデル,(ii)手作りコンテキスト特徴の3つのモデリング手法を比較した。
- 参考スコア(独自算出の注目度): 2.314355984893946
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe a modern deep learning system that automatically identifies informative contextual examples (\qu{contexts}) for first language vocabulary instruction for high school student. Our paper compares three modeling approaches: (i) an unsupervised similarity-based strategy using MPNet's uniformly contextualized embeddings, (ii) a supervised framework built on instruction-aware, fine-tuned Qwen3 embeddings with a nonlinear regression head and (iii) model (ii) plus handcrafted context features. We introduce a novel metric called the Retention Competency Curve to visualize trade-offs between the discarded proportion of good contexts and the \qu{good-to-bad} contexts ratio providing a compact, unified lens on model performance. Model (iii) delivers the most dramatic gains with performance of a good-to-bad ratio of 440 all while only throwing out 70\% of the good contexts. In summary, we demonstrate that a modern embedding model on neural network architecture, when guided by human supervision, results in a low-cost large supply of near-perfect contexts for teaching vocabulary for a variety of target words.
- Abstract(参考訳): 本稿では,高校生を対象とした第1言語語彙指導のための情報的文脈例(\qu{contexts})を自動的に識別する,最新のディープラーニングシステムについて述べる。
本稿では,3つのモデリング手法を比較した。
(i)MPNetの一様文脈埋め込みを用いた教師なし類似性に基づく戦略。
(ii)非線形回帰ヘッドを用いた命令認識,微調整Qwen3埋め込みに基づく教師付きフレームワーク
(三)模型
(ii)手作りのコンテキスト機能。
本稿では,保持能力曲線(Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve, Retention Competency Curve)という新しいメトリクスを紹介した。
モデル
(iii) 良い文脈の70%しか捨てないのに、440の善と悪の比のパフォーマンスで最も劇的な成果を上げます。
要約すると、ニューラルネットワークアーキテクチャ上の現代的な埋め込みモデルが、人間の監督によって導かれると、様々な目的語に対して語彙を教えるために、ほぼ完璧な文脈を低コストで提供できることを実証する。
関連論文リスト
- Improving Neural Topic Modeling with Semantically-Grounded Soft Label Distributions [15.97570754056266]
言語モデル(LM)を用いた意味的基底を持つソフトラベルターゲット構築のための新しい手法を提案する。
提案手法は,コーパスの主題構造とより密に一致した高品質なトピックを生成する。
また,本手法が意味的に類似した文書の同定において,既存の手法を著しく上回っていることを示す検索基準も導入した。
論文 参考訳(メタデータ) (2026-02-20T00:12:04Z) - Context-level Language Modeling by Learning Predictive Context Embeddings [79.00607069677393]
textbfContextLMは、固有のtextbfnext-context予測目標で標準事前学習を強化するフレームワークである。
このメカニズムは、将来のトークンチャンクから派生したエラー信号を利用して、マルチトークンコンテキストの予測表現を学ぶようモデルを訓練する。
GPT2およびPythiaモデルファミリーの実験では、1.5ドルBのパラメータまでスケールし、ContextLMがパープレキシティとダウンストリームのタスクパフォーマンスの両方で一貫した改善を提供することを示した。
論文 参考訳(メタデータ) (2025-10-23T07:09:45Z) - Distillation and Refinement of Reasoning in Small Language Models for Document Re-ranking [21.23826888841565]
本稿では、推論集約型文書ランキングのための小言語モデルをトレーニングするための新しいアプローチを提案する。
我々は Web データと教師 LLM を用いて,関連性の説明付き高品質な学習例を自動生成する。
私たちのモデルは、他のアプローチよりもはるかに少ないパラメータを使用しながら、リーダーボードで3位です。
論文 参考訳(メタデータ) (2025-04-04T21:27:48Z) - Manual Verbalizer Enrichment for Few-Shot Text Classification [1.860409237919611]
acrshortmaveは、クラスラベルの豊か化による動詞化のためのアプローチである。
本モデルでは, 資源を著しく減らしながら, 最先端の成果が得られている。
論文 参考訳(メタデータ) (2024-10-08T16:16:47Z) - RAVEN: In-Context Learning with Retrieval-Augmented Encoder-Decoder Language Models [57.12888828853409]
RAVENは検索強化されたマスク付き言語モデリングとプレフィックス言語モデリングを組み合わせたモデルである。
フュージョン・イン・コンテキスト・ラーニング(Fusion-in-Context Learning)により、追加のトレーニングを必要とせずに、より多くのコンテキスト内サンプルを利用できる。
本研究は,テキスト内学習のためのエンコーダ・デコーダ言語モデルの構築の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-08-15T17:59:18Z) - PRODIGY: Enabling In-context Learning Over Graphs [112.19056551153454]
コンテキスト内学習(In-context learning)とは、事前訓練されたモデルが、新しい多様な下流タスクに適応する能力である。
ProDIGYは,グラフ上でのコンテキスト内学習を可能にする最初の事前学習フレームワークである。
論文 参考訳(メタデータ) (2023-05-21T23:16:30Z) - Pre-Training to Learn in Context [138.0745138788142]
言語モデルが文脈で学習するために明示的に訓練されていないため、コンテキスト内学習の能力は十分に活用されていない。
In-Context Learning のための PICL (Pre-training for In-Context Learning) を提案する。
実験の結果,PICLはベースラインよりも効率が高く,タスクの汎用性が高く,約4倍のパラメータを持つ言語モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-05-16T03:38:06Z) - How Far are We from Effective Context Modeling? An Exploratory Study on
Semantic Parsing in Context [59.13515950353125]
文法に基づく意味解析を行い,その上に典型的な文脈モデリング手法を適用する。
我々は,2つの大きなクロスドメインデータセットに対して,13のコンテキストモデリング手法を評価した。
論文 参考訳(メタデータ) (2020-02-03T11:28:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。