Fugu-MT 論文翻訳(概要): Should you marginalize over possible tokenizations?

論文の概要: Should you marginalize over possible tokenizations?

arxiv url: http://arxiv.org/abs/2306.17757v1
Date: Fri, 30 Jun 2023 16:09:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-03 11:57:20.049070
Title: Should you marginalize over possible tokenizations?
Title（参考訳）: トークン化の可能性に限界を設けるべきか?
Authors: Nadezhda Chirkova, Germ\'an Kruszewski, Jos Rozen, Marc Dymetman
Abstract要約: ログライクリフのギャップは,ほとんどの場合0.5%以下であることを示す。その結果,ほとんどの場合,ログライクリフのギャップは0.5%以下であることがわかった。
参考スコア（独自算出の注目度）: 13.07994518230055
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Autoregressive language models (LMs) map token sequences to probabilities. The usual practice for computing the probability of any character string (e.g. English sentences) is to first transform it into a sequence of tokens that is scored by the model. However, there are exponentially many token sequences that represent any given string. To truly compute the probability of a string one should marginalize over all tokenizations, which is typically intractable. Here, we analyze whether the practice of ignoring the marginalization is justified. To this end, we devise an importance-sampling-based algorithm that allows us to compute estimates of the marginal probabilities and compare them to the default procedure in a range of state-of-the-art models and datasets. Our results show that the gap in log-likelihood is no larger than 0.5% in most cases, but that it becomes more pronounced for data with long complex words.
Abstract（参考訳）: 自己回帰言語モデル(LM)はトークンシーケンスを確率にマッピングする。任意の文字列(例えば英語の文)の確率を計算する通常の方法は、まずそれをモデルによって得点されるトークン列に変換することである。しかし、任意の文字列を表すトークン列は指数関数的に多数存在する。弦の確率を真に計算するためには、典型的には難解な全てのトークン化を極小化すべきである。ここでは,限界化を無視する慣行が正当化されるか否かを分析する。この目的のために、我々は限界確率の推定値を計算し、最先端のモデルとデータセットの範囲でデフォルトの手順と比較できる重要サンプリングベースのアルゴリズムを考案した。以上の結果から,ログ類似度が0.5%以下である場合が多いが,長い複雑な単語を持つデータではより顕著になる。

関連論文リスト

Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。右列桁のグルーピングは、大数の算術を+33%向上させる。
論文参考訳（メタデータ） (2025-06-23T18:02:26Z)
Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文参考訳（メタデータ） (2025-06-09T17:26:14Z)
Causal Estimation of Tokenisation Bias [58.20086589761273]
我々は、訓練されたモデルが対応する文字に割り当てる確率に対して、トークンの語彙にサブワードを含むか否かを定量化する。トークン化は、スケール、語彙、トークンサプライヤにわたるモデルのアウトプットに一貫して影響を与えます。特に、小モデルの語彙におけるサブワードの存在は、文字の確率を最大17倍に向上させる可能性がある。
論文参考訳（メタデータ） (2025-06-03T17:59:47Z)
On Next-Token Prediction in LLMs: How End Goals Determine the Consistency of Decoding Algorithms [17.98959620987217]
クロスエントロピー損失を用いて訓練された次のトーケン予測は、ほとんどの大きな言語モデルの基礎である。本稿では、これらのアルゴリズムのいくつかを検証し、損失関数として符号化された様々な目標に対する一貫性について検討する。
論文参考訳（メタデータ） (2025-05-16T12:38:45Z)
Fast Controlled Generation from Language Models with Adaptive Weighted Rejection Sampling [90.86991492288487]
トークンの制約を評価するのは違法にコストがかかる LCDは文字列上のグローバル分布を歪め、ローカル情報のみに基づいてトークンをサンプリングすることができる。我々のアプローチは最先端のベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2025-04-07T18:30:18Z)
DiffSampling: Enhancing Diversity and Accuracy in Neural Text Generation [2.4555276449137042]
本稿では,トークン確率分布の数学的解析を利用した3種類の新しい復号法を提案する。私たちのアプローチは、品質と多様性の面で、少なくとも現在の代替手段と同様に、一貫して機能します。
論文参考訳（メタデータ） (2025-02-19T19:00:02Z)
Language Models Can Predict Their Own Behavior [28.80639362933004]
入力トークンの内部表現だけでは、次のトークンだけでなく、出力シーケンス全体に対する最終的な振る舞いを正確に予測できることがよく示されます。この能力を活用して、内部状態のプローブを学習して、早期警告(および終了)システムを作成します。具体的には、探査機がLMの振る舞いを確実に見積もることができれば、システムはトークンを全く生成せず、代わりに推定された振る舞いを返す。
論文参考訳（メタデータ） (2025-02-18T23:13:16Z)
Computational-Statistical Tradeoffs at the Next-Token Prediction Barrier: Autoregressive and Imitation Learning under Misspecification [50.717692060500696]
対数損失を伴う次のトーケン予測は自己回帰シーケンスモデリングの基盤となる。次トーケン予測は、適度な誤差増幅を表す$C=tilde O(H)$を達成するために堅牢にすることができる。 C=e(log H)1-Omega(1)$。
論文参考訳（メタデータ） (2025-02-18T02:52:00Z)
Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文参考訳（メタデータ） (2024-10-11T23:30:42Z)
Where is the signal in tokenization space? [31.016041295876864]
大規模言語モデル (LLM) は通常、テキストを決定論的に標準的なトークンシーケンスにエンコードするトークン化器を伴って出荷される。本稿では,非標準トークン化について検討する。
論文参考訳（メタデータ） (2024-08-16T05:56:10Z)
Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-24T17:38:02Z)
How to Compute the Probability of a Word [45.23856093235994]
本稿では,単語確率の正しい計算法を導出する。確率計算における広範囲なバグの修正は,文理解および語彙最適化分析における測定結果に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-20T17:59:42Z)
TokenUnify: Scalable Autoregressive Visual Pre-training with Mixture Token Prediction [61.295716741720284]
TokenUnifyは、ランダムトークン予測、次のトークン予測、次のトークン予測を統合する新しい事前学習手法である。 TokenUnifyと共同で,超高解像度の大規模電子顕微鏡画像データセットを構築した。このデータセットには1億2000万以上の注釈付きボクセルが含まれており、これまでで最大のニューロンセグメンテーションデータセットとなっている。
論文参考訳（メタデータ） (2024-05-27T05:45:51Z)
Closing the Curious Case of Neural Text Degeneration [91.22954750742183]
トラニケートサンプリングの有効性を理論的に説明する。モデルエラーの既知の源であるソフトマックスボトルネックを利用して、特定のトークンが真の確率がゼロでないことを示す。提案手法は,低エントロピーテキスト生成におけるしきい値ベースよりも優れていることを示す。
論文参考訳（メタデータ） (2023-10-02T23:16:25Z)
Compositional Generalization without Trees using Multiset Tagging and Latent Permutations [121.37328648951993]
まず、各入力トークンに複数の出力トークンをタグ付けします。次に、新しいパラメータ化法と置換予測法を用いて、トークンを出力シーケンスに配置する。我々のモデルは、事前訓練されたセq2seqモデルと、現実的なセマンティック解析タスクに関する先行研究より優れている。
論文参考訳（メタデータ） (2023-05-26T14:09:35Z)
Truncation Sampling as Language Model Desmoothing [115.28983143361681]
ニューラルネットワークモデルからのテキストの長いサンプルは、品質が劣る可能性がある。トランケーションサンプリングアルゴリズムは、各ステップでいくつかの単語の確率を0に設定する。本稿では,単語をエントロピーに依存した確率閾値以下に切り詰める$eta$-samplingを導入する。
論文参考訳（メタデータ） (2022-10-27T05:52:35Z)
Robust Multi-Object Tracking by Marginal Inference [92.48078680697311]
ビデオにおける多目的追跡は、隣接するフレーム内のオブジェクト間の1対1の割り当てに関する根本的な問題を解決する必要がある。本稿では,各オブジェクトの限界確率をリアルタイムに計算する効率的な手法を提案する。 MOT17とMOT20ベンチマークで競合する結果を得る。
論文参考訳（メタデータ） (2022-08-07T14:04:45Z)
You should evaluate your language model on marginal likelihood overtokenisations [5.824498637088864]
言語モデルはトークン化よりも限界的な可能性に基づいて評価されるべきである、と我々は主張する。我々は,英語とドイツ語の事前学習モデルについて,最良語化と限界語化の両面で評価した。
論文参考訳（メタデータ） (2021-09-06T15:37:02Z)
AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。 3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文参考訳（メタデータ） (2020-01-15T18:32:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。