Fugu-MT 論文翻訳(概要): Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models

論文の概要: Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models

arxiv url: http://arxiv.org/abs/2411.02083v3
Date: Sun, 17 Aug 2025 09:30:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-08-19 14:49:09.704634
Title: Regress, Don't Guess -- A Regression-like Loss on Number Tokens for Language Models
Title（参考訳）: Regress, Don't Guess -- 言語モデルのための数値トークンの回帰的な損失
Authors: Jonas Zausinger, Lars Pennig, Anamarija Kozina, Sean Sdahl, Julian Sikora, Adrian Dendorfer, Timofey Kuznetsov, Mohamad Hagog, Nina Wiedemann, Kacper Chlodny, Vincent Limbach, Anna Ketteler, Thorben Prein, Vishwa Mohan Singh, Michael Morris Danziger, Jannis Born,
Abstract要約: トークンレベルで純粋に動作する回帰的な損失を示す。我々の提案したナンバートークン損失(NTL)は2つのフレーバーを持ち、$L_p$ノルムまたはワッサーシュタイン距離を最小化する。提案手法を様々な数学的データセット上で評価し,数学関連タスクの性能を継続的に改善することを発見した。
参考スコア（独自算出の注目度）: 2.5464748274973026
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While language models have exceptional capabilities at text generation, they lack a natural inductive bias for emitting numbers and thus struggle in tasks involving quantitative reasoning, especially arithmetic. One fundamental limitation is the nature of the cross-entropy (CE) loss, which assumes a nominal scale and thus cannot convey proximity between generated number tokens. In response, we here present a regression-like loss that operates purely on token level. Our proposed Number Token Loss (NTL) comes in two flavors and minimizes either the $L_p$ norm or the Wasserstein distance between the numerical values of the real and predicted number tokens. NTL can easily be added to any language model and extend the CE objective during training without runtime overhead. We evaluate the proposed scheme on various mathematical datasets and find that it consistently improves performance in math-related tasks. In a direct comparison on a regression task, we find that NTL can match the performance of a regression head, despite operating on token level. Finally, we scale NTL up to 3B parameter models and observe improved performance, demonstrating its potential for seamless integration into LLMs. We hope to inspire LLM developers to improve their pretraining objectives and distribute NTL as a minimalistic and lightweight PyPI package $ntloss$: https://github.com/ai4sd/number-token-loss. Development code for full paper reproduction is available separately.
Abstract（参考訳）: 言語モデルはテキスト生成において例外的な能力を持つが、数値を出力する自然な帰納的バイアスがなく、したがって量的推論、特に算術的推論を含むタスクに苦労する。 1つの基本的な制限はクロスエントロピー(CE)損失の性質であり、これは名目上のスケールを前提としており、生成した数トークン間の近接を伝達できない。これに対し、トークンレベルで純粋に動作する回帰的な損失を提示する。我々の提案した数値トークン損失(NTL)は2つのフレーバーを持ち、$L_p$ノルムか、実数トークンと予測数トークンの数値間のワッサーシュタイン距離を最小化する。 NTLは任意の言語モデルに簡単に追加でき、ランタイムオーバーヘッドなしにトレーニング中にCEの目標を拡張することができる。提案手法を様々な数学的データセット上で評価し,数学関連タスクの性能を継続的に改善することを発見した。回帰タスクの直接比較において,NTLはトークンレベルで動作しているにもかかわらず,回帰ヘッドの性能に適合することがわかった。最後に、NTLを3Bパラメータモデルに拡張し、改善された性能を観察し、LCMへのシームレスな統合の可能性を示す。 LLM開発者は、事前学習の目的を改善し、NTLを最小限で軽量なPyPIパッケージとして配布したいと考えています。全紙再生のための開発コードは別途利用可能である。

関連論文リスト

Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。 CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文参考訳（メタデータ） (2025-10-31T17:58:11Z)
FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文参考訳（メタデータ） (2025-10-18T10:22:13Z)
ReGATE: Learning Faster and Better with Fewer Tokens in MLLMs [1.1834200163382398]
ReGATE (Reference$-$Guided Adaptive Token Elision) はMLLMトレーニングを高速化するための適応トークンプルーニング手法である。 MVBenchの標準トレーニングのピーク精度は最大2$times$で、トークンの35%しか使用していない。
論文参考訳（メタデータ） (2025-07-29T01:07:09Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
Not all tokens are created equal: Perplexity Attention Weighted Networks for AI generated text detection [49.15148871877941]
大規模言語モデル(LLM)の検出に理論的に魅力的なアプローチを提供する次点分布出力本稿では,LLMの最後の隠蔽状態を用いて,列長の次トーケン分布のメトリクスに基づく一連の特徴量の重み付けを行うパープレキシティ注意重み付けネットワーク(PAWN)を提案する。 PAWNは、トレーニング可能なパラメータのごく一部を持つ最強のベースラインよりも、競争力があり、より優れた分散性能を示している。
論文参考訳（メタデータ） (2025-01-07T17:00:49Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文参考訳（メタデータ） (2024-03-01T18:55:20Z)
Tokenization counts: the impact of tokenization on arithmetic in frontier LLMs [3.6722413665749674]
トークン化とは、入力テキストを入力トークンに分割することである。この選択が算術的タスクを用いて数値推論に与える影響について検討する。
論文参考訳（メタデータ） (2024-02-22T18:14:09Z)
MARIO: MAth Reasoning with code Interpreter Output -- A Reproducible Pipeline [12.186691561822256]
我々は,大規模言語モデル(LLM)の本質的な性質が,数学的推論のモデル化における課題を提起していると仮定する。本稿では,Pythonコードインタプリタを利用した新しい数学データセットを提案する。本稿では,数学固有のLLMの微調整のための仮的かつ容易に複製可能なプロトコルを提案する。
論文参考訳（メタデータ） (2024-01-16T08:08:01Z)
MiLe Loss: a New Loss for Mitigating the Bias of Learning Difficulties in Generative Language Models [40.992566245706996]
トークンによる学習難易度を緩和するMiLe Loss関数を提案する。我々は468M,1.2B,6.7Bパラメータの異なるスケールで生成言語モデルを訓練する。実験により、提案されたMiLe Lossを組み込んだモデルが下流ベンチマークで一貫したパフォーマンス向上を達成できることが明らかになった。
論文参考訳（メタデータ） (2023-10-30T13:33:21Z)
Estimating Numbers without Regression [30.79061214333164]
近年の言語モデルの成功にもかかわらず、数を表す能力は不十分である。代名詞のトークン化は、数字を任意のチャンクに分割することで、明確に大きさをキャプチャすることができない。代わりにモデルの語彙を変更する(例えば、範囲10～100の数値に新しいトークンを導入する)ことが、はるかに優れたトレードオフであることを示す。
論文参考訳（メタデータ） (2023-10-09T23:07:05Z)
Scaling Data-Constrained Language Models [137.17302576977346]
データ制約付きシステムにおける言語モデルのスケーリングについて検討する。固定された計算予算に対する制約付きデータでは、反復するデータの最大4つのエポックなトレーニングは、ユニークなデータに比べて損失に対する無視可能な変化をもたらす。本稿では,繰り返しトークンと過剰パラメータの値の減少を考慮に入れた計算最適性のスケーリング法則を提案し,実証的に検証する。
論文参考訳（メタデータ） (2023-05-25T17:18:55Z)
Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文参考訳（メタデータ） (2022-07-14T17:00:19Z)
Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文参考訳（メタデータ） (2022-05-26T21:11:51Z)
A Simple Contrastive Learning Objective for Alleviating Neural Text Degeneration [56.64703901898937]
本稿では,クロスエントロピーと異種訓練の利点を継承する,新しい対照的なトークン学習目標を提案する。言語モデリングとオープンドメイン対話生成タスクに関する総合的な実験は、提案したコントラストトークンの目的がより繰り返しの少ないテキストを生成することを示す。
論文参考訳（メタデータ） (2022-05-05T08:50:50Z)
Evaluating Distributional Distortion in Neural Language Modeling [81.83408583979745]
稀な事象の重みは、言語における分布の総確率質量のかなりの量を占める。パープレキシティなどの標準言語モデリングメトリクスは、集約された言語モデル(LM)のパフォーマンスを定量化する。自然言語を人工言語として訓練した生成モデルを用いた制御評価手法を開発した。
論文参考訳（メタデータ） (2022-03-24T01:09:46Z)
An Empirical Investigation of Contextualized Number Prediction [34.56914472173953]
本研究では,(1)未知の数値を文内に予測する仮数予測と,(2)誤りの少ない数値を文内に検出する数値検出という2つのタスクについて考察する。本稿では,潜在変数を組み込んで表現性を付加し,テキスト実行時の数値値の自然分布をよりよく適合させる出力分布パラメータ化スイートを提案する。金融分野と科学分野の2つの数値データセット上でこれらのモデルを評価する。
論文参考訳（メタデータ） (2020-10-20T23:12:23Z)
TLDR: Token Loss Dynamic Reweighting for Reducing Repetitive Utterance Generation [52.3803408133162]
本稿では、リカレントニューラルネットワーク(RNN)とトランスフォーマーアーキテクチャの両方を用いて、エンコーダデコーダモデルの繰り返し問題について検討する。ハードトークンの重量を高くし、簡単なトークンの重量を低くすることで、NLGモデルは異なるペースで個々のトークンを学習することができる。
論文参考訳（メタデータ） (2020-03-26T15:01:37Z)
ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators [108.3381301768299]
Masked Language Modeling (MLM) は、BERT のような事前学習手法で、いくつかのトークンを [MASK] に置き換えて、元のトークンを再構築するためにモデルをトレーニングすることで入力を破損させた。代用トークン検出という,より効率的な事前学習タスクを提案する。
論文参考訳（メタデータ） (2020-03-23T21:17:42Z)
Parameter Space Factorization for Zero-Shot Learning across Tasks and Languages [112.65994041398481]
本稿では,ニューラルパラメータの空間に対するベイズ生成モデルを提案する。タスク言語の組み合わせから得られたデータに基づいて、そのような潜伏変数よりも後部を推測する。我々のモデルは、最先端のゼロショットの言語間転送手法よりも、同等か良い結果が得られる。
論文参考訳（メタデータ） (2020-01-30T16:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。