Fugu-MT 論文翻訳(概要): LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

論文の概要: LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss

arxiv url: http://arxiv.org/abs/2602.12005v2
Date: Fri, 13 Feb 2026 15:48:53 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-16 13:08:15.621747
Title: LaCy: What Small Language Models Can and Should Learn is Not Just a Question of Loss
Title（参考訳）: LaCy: 小さな言語モデルでできることとすべきことは、単に損失の問題ではない
Authors: Szilvia Ujváry, Louis Béthune, Pierre Ablin, João Monteiro, Marco Cuturi, Michael Kirchhof,
Abstract要約: 我々は、SLMがどのトークンを学べるかという問題と、どのトークンを委譲すべきかという問題について研究する。このトークン選択哲学に基づく新しい事前学習手法であるLaCyを提案する。我々の実験は、LaCyモデルがどのトークンを予測し、どのトークンをヘルプに委譲するかをうまく学べることを示した。
参考スコア（独自算出の注目度）: 34.02891591167747
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Language models have consistently grown to compress more world knowledge into their parameters, but the knowledge that can be pretrained into them is upper-bounded by their parameter size. Especially the capacity of Small Language Models (SLMs) is limited, leading to factually incorrect generations. This problem is often mitigated by giving the SLM access to an outside source: the ability to query a larger model, documents, or a database. Under this setting, we study the fundamental question of \emph{which tokens an SLM can and should learn} during pretraining, versus \emph{which ones it should delegate} via a \texttt{<CALL>} token. We find that this is not simply a question of loss: although the loss is predictive of whether a predicted token mismatches the ground-truth, some tokens are \emph{acceptable} in that they are truthful alternative continuations of a pretraining document, and should not trigger a \texttt{<CALL>} even if their loss is high. We find that a spaCy grammar parser can help augment the loss signal to decide which tokens the SLM should learn to delegate to prevent factual errors and which are safe to learn and predict even under high losses. We propose LaCy, a novel pretraining method based on this token selection philosophy. Our experiments demonstrate that LaCy models successfully learn which tokens to predict and where to delegate for help. This results in higher FactScores when generating in a cascade with a bigger model and outperforms Rho or LLM-judge trained SLMs, while being simpler and cheaper.
Abstract（参考訳）: 言語モデルは、より多くの世界の知識をパラメータに圧縮するために一貫して成長してきたが、それらに事前訓練できる知識は、パラメータのサイズによって上限づけられている。特に、Small Language Models (SLM) の能力は限られており、事実上の誤った世代に繋がる。この問題は、より大きなモデル、ドキュメント、データベースに問い合わせる機能である外部ソースへのSLMアクセスを提供することによって、しばしば緩和される。この設定では、事前トレーニング中にSLMが可能なトークンであり、学習すべきトークンである \emph{と、 \texttt{<CALL>}トークンを介して代入すべきトークンである \emph{とを比較検討する。この損失は、予測されたトークンが真実と一致しないかどうかを予測できるが、いくつかのトークンは、事前訓練された文書の真に代替的な継続であり、もしその損失が高ければ、 \texttt{<CALL>} をトリガーするべきではないという点で \emph{acceptable} である。スパチー文法解析器は損失信号の増大に役立ち、SLMがどのトークンを委譲して実際のエラーを防止すべきかを判断し、高い損失の下でも学習し、予測することが安全であることがわかった。このトークン選択哲学に基づく新しい事前学習手法であるLaCyを提案する。我々の実験は、LaCyモデルがどのトークンを予測し、どのトークンをヘルプに委譲するかをうまく学べることを示した。これにより、より大きなモデルでカスケードを発生させ、Rho または LLM-judge が訓練した SLM より優れ、よりシンプルで安価である。

関連論文リスト

ESLM: Risk-Averse Selective Language Modeling for Efficient Pretraining [53.893792844055106]
大規模言語モデルの事前学習は計算集約的であるが、多くのトークンが学習にわずかに寄与し、非効率になる。 Selective Efficient Language Modelingは、オンライントークンレベルのバッチ選択を行うことで、トレーニング効率と分散ロバスト性を改善するリスク認識アルゴリズムである。 GPT-2プレトレーニング実験の結果、ESLMはベースラインに比べて複雑度と下流性能の両面を維持・改善しながら、トレーニングFLOPを著しく低減することが示された。
論文参考訳（メタデータ） (2025-05-26T12:23:26Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。 4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文参考訳（メタデータ） (2024-12-10T22:57:57Z)
Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。提案手法は4つの標準NLPベンチマークを用いて検証する。いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文参考訳（メタデータ） (2024-11-25T01:48:09Z)
Beyond Next Token Prediction: Patch-Level Training for Large Language Models [69.67438563485887]
大規模言語モデル(LLM)に対するパッチレベルのトレーニングを導入する。パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。パッチレベルのトレーニングは、モデルのパフォーマンスを損なうことなく、全体のトレーニングコストを0.5$times$に削減できることを示す。
論文参考訳（メタデータ） (2024-07-17T15:48:39Z)
ArthModel: Enhance Arithmetic Skills to Large Language Model [0.0]
この作業は、さまざまな思考方法、トレーニング方法、言語モデルの使用方法を提供します。コードとモデルはurlhttps://www.eteced.com/eteced/arithmetic_finetuning_v1でリリースされる。
論文参考訳（メタデータ） (2023-11-30T15:06:50Z)
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文参考訳（メタデータ） (2023-10-30T13:33:21Z)
nanoLM: an Affordable LLM Pre-training Benchmark via Accurate Loss Prediction across Scales [65.01417261415833]
我々は,最大更新パラメトリゼーション(muP)がスケーリング法則の正確な適合を可能にするという観測に基づいて,事前学習損失を予測する手法を提案する。トレーニング前コストの約14%で、52Bまでのモデルの損失を正確に予測できる。 NanoLMのゴールは、限られた資源を持つ研究者が大きなモデルで有意義な結論に達することを可能にすることです。
論文参考訳（メタデータ） (2023-04-14T00:45:01Z)
Systematic Rectification of Language Models via Dead-end Analysis [34.37598463459319]
大型言語モデル(LLM)は有害な談話を生成するためにプッシュされる。ここでは、完了した談話が最終的に有毒と考えられる確率について、デトックス化を中心とする。我々の手法は整流化と呼ばれ、別個のモデルを用いるが、デトキシ化には著しく小さいモデルを用いる。
論文参考訳（メタデータ） (2023-02-27T17:47:53Z)
Can Edge Probing Tasks Reveal Linguistic Knowledge in QA Models? [22.89462198734587]
エッジプローブテストはトークン表現を用いてスパンの文法的性質を予測する。ほとんどのNLPアプリケーションは微調整のLMを使用する。 EPタスクデータセットの批判的分析により、EPモデルが予測を行うために急激な相関に依存する可能性があることが明らかになった。
論文参考訳（メタデータ） (2021-09-15T06:16:12Z)
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。代用トークン検出という,より効率的な事前学習タスクを提案する。
論文参考訳（メタデータ） (2020-03-23T21:17:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。