Fugu-MT 論文翻訳(概要): Spelling Bee Embeddings for Language Modeling

論文の概要: Spelling Bee Embeddings for Language Modeling

arxiv url: http://arxiv.org/abs/2601.18030v1
Date: Sun, 25 Jan 2026 22:55:59 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-27 15:23:08.588822
Title: Spelling Bee Embeddings for Language Modeling
Title（参考訳）: 言語モデリングのためのビー埋め込みのスペル化
Authors: Markus N. Rabe, Judith Clymo, Zheren Dong,
Abstract要約: 埋め込み層に簡単な修正を導入する。鍵となる変更は、トークンの埋め込みにスペルに関する情報を注入することである。これらの埋め込みで訓練されたモデルはスペルだけでなく、標準ベンチマークでも改善される。
参考スコア（独自算出の注目度）: 1.4977324361453972
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce a simple modification to the embedding layer. The key change is to infuse token embeddings with information about their spelling. Models trained with these embeddings improve not only on spelling, but also across standard benchmarks. We conduct scaling studies for models with 40M to 800M parameters, which suggest that the improvements are equivalent to needing about 8% less compute and data to achieve the same test loss.
Abstract（参考訳）: 埋め込み層に簡単な修正を導入する。鍵となる変更は、トークンの埋め込みにスペルに関する情報を注入することである。これらの埋め込みで訓練されたモデルはスペルだけでなく、標準ベンチマークでも改善される。我々は4000万から800万のパラメータを持つモデルのスケーリング研究を行い、同じテスト損失を達成するためには、約8%の計算とデータを必要とすることを示唆している。

関連論文リスト

Effective and Efficient One-pass Compression of Speech Foundation Models Using Sparsity-aware Self-pinching Gates [20.16951333751427]
本稿では,モデルプルーニングとパラメータ更新を一段階に統合した音声基礎モデル圧縮手法を提案する。 LibriSpeech-100hr corpus を用いた実験により,wav2vec2.0-base と HuBERT-large モデルのパラメータ数を 65% と 60% 削減できることが示唆された。
論文参考訳（メタデータ） (2025-05-28T17:24:21Z)
From Superficial Patterns to Semantic Understanding: Fine-Tuning Language Models on Contrast Sets [0.21756081703275998]
本研究では,言語モデルのロバスト性について,学習中に少量の複雑なコントラスト集合に公開することにより改善する方法について検討する。このアプローチにより、モデルはパフォーマンスを回復し、コントラストセットで90%近い精度を実現し、多様で挑戦的なトレーニングデータの重要性を強調します。
論文参考訳（メタデータ） (2025-01-05T23:19:55Z)
What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文参考訳（メタデータ） (2024-11-12T09:52:40Z)
Grammatical Error Correction for Low-Resource Languages: The Case of Zarma [8.40484790921164]
文法的誤り訂正は、テキストの品質と可読性を改善することを目的としている。西アフリカで500万人以上が話していたGEC for Zarmaについて検討する。ルールベース手法,機械翻訳(MT)モデル,大規模言語モデルという3つのアプローチを比較した。
論文参考訳（メタデータ） (2024-10-20T23:51:36Z)
Pruning Large Language Models with Semi-Structural Adaptive Sparse Training [17.381160429641316]
Adaptive Sparse Trainer (AST)は、半構造化スパースモデルに適した、新規で効率的なリトレーニングフレームワークである。 ASTは、密度と2:4の半構造化スパースモデルのパープレキシティとゼロショット精度のギャップをそれぞれ0.6と1.16%に削減する。
論文参考訳（メタデータ） (2024-07-30T06:33:44Z)
Language models scale reliably with over-training and on downstream tasks [121.69867718185125]
スケーリング法則は、高価なトレーニング実行を引き出すための有用なガイドである。しかし、現在の研究と言語モデルがどのように訓練されているかには差がある。対照的に、スケーリング法則は主に推論における損失を予測するが、モデルは通常下流のタスクのパフォーマンスで比較される。
論文参考訳（メタデータ） (2024-03-13T13:54:00Z)
Clarify: Improving Model Robustness With Natural Language Corrections [59.041682704894555]
モデルを教える標準的な方法は、大量のデータを提供することです。このアプローチは、データ内の誤解を招く信号を拾うため、モデルに誤ったアイデアを教えることが多い。モデル誤解をインタラクティブに修正するためのインターフェースと手法であるClarifyを提案する。
論文参考訳（メタデータ） (2024-02-06T05:11:38Z)
MoPe: Model Perturbation-based Privacy Attacks on Language Models [4.4746931463927835]
大規模言語モデル(LLM)は、トレーニングデータに存在する機密情報を意図せずにリークすることができる。本稿では,事前学習した言語モデルのトレーニングデータに含まれるテキストを高い信頼度で識別する新しい手法であるモデル摂動(MoPe)を提案する。
論文参考訳（メタデータ） (2023-10-22T17:33:19Z)
Enhancing Black-Box Few-Shot Text Classification with Prompt-Based Data Augmentation [42.05617728412819]
大規模言語モデルの勾配にアクセスすることなく、少数ショットのテキスト分類を最適化する方法を示す。我々のアプローチはBT-Classifierと呼ばれ、最先端のブラックボックス学習者よりもはるかに優れています。
論文参考訳（メタデータ） (2023-05-23T07:54:34Z)
Exploring Strategies for Generalizable Commonsense Reasoning with Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。 2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文参考訳（メタデータ） (2021-09-07T03:13:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。