論文の概要: Transducing Language Models
- arxiv url: http://arxiv.org/abs/2603.05193v1
- Date: Thu, 05 Mar 2026 14:04:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.259631
- Title: Transducing Language Models
- Title(参考訳): 言語モデルの変換
- Authors: Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu, Reda Boumasmoud, Ryan Cotterell, Tim Vieira,
- Abstract要約: 決定論的文字列から文字列への変換から導かれる言語モデルのためのフレームワークを提案する。
本研究では,FSTを用いた言語モデルを構成するアルゴリズムを開発した。
本稿では,正確なアルゴリズム,効率的な近似,理論的解析について述べる。
- 参考スコア(独自算出の注目度): 52.080921891265255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models define distributions over strings, but downstream tasks often require different output formats. For instance, a model that generates byte-pair strings does not directly produce word-level predictions, and a DNA model does not directly produce amino-acid sequences. In such cases, a deterministic string-to-string transformation can convert the model's output to the desired form. This is a familiar pattern in probability theory: applying a function $f$ to a random variable $X\sim p$ yields a transformed random variable $f(X)$ with an induced distribution. While such transformations are occasionally used in language modeling, prior work does not treat them as yielding new, fully functional language models. We formalize this perspective and introduce a general framework for language models derived from deterministic string-to-string transformations. We focus on transformations representable as finite-state transducers -- a commonly used state-machine abstraction for efficient string-to-string mappings. We develop algorithms that compose a language model with an FST to *marginalize* over source strings mapping to a given target, propagating probabilities through the transducer without altering model parameters and enabling *conditioning* on transformed outputs. We present an exact algorithm, an efficient approximation, and a theoretical analysis. We conduct experiments in three domains: converting language models from tokens to bytes, from tokens to words, and from DNA to amino acids. These experiments demonstrate inference-time adaptation of pretrained language models to match application-specific output requirements.
- Abstract(参考訳): 現代の言語モデルは文字列上の分散を定義するが、下流のタスクは出力形式が異なることが多い。
例えば、バイトペア文字列を生成するモデルは単語レベルの予測を直接生成せず、DNAモデルはアミノ酸配列を直接生成しない。
そのような場合、決定論的文字列から文字列への変換は、モデルの出力を所望の形式に変換することができる。
関数 $f$ を確率変数 $X\sim p$ に適用すると、帰納分布を持つ変換された確率変数 $f(X)$ が得られる。
このような変換は言語モデリングでしばしば使用されるが、以前の研究ではこれらを新しい、完全に機能する言語モデルとして扱っていない。
我々はこの観点を定式化し、決定論的文字列から文字列への変換から派生した言語モデルのための一般的なフレームワークを導入する。
本稿では,有限状態トランスデューサとして表現可能な変換に焦点をあてる。
本研究では,FSTで言語モデルを構成するアルゴリズムを開発し,対象とする文字列に対して*marginalize*をマッピングし,モデルパラメータを変更することなくトランスデューサを通じて確率を伝搬し,変換された出力に対して* Conditioning*を有効にする。
本稿では,正確なアルゴリズム,効率的な近似,理論的解析について述べる。
トークンからバイト、トークンから単語への変換、DNAからアミノ酸への変換という3つの領域で実験を行います。
これらの実験は、アプリケーション固有の出力要求に合うように事前訓練された言語モデルの推論時適応を示す。
関連論文リスト
- Understanding LLM Failures: A Multi-Tape Turing Machine Analysis of Systematic Errors in Language Model Reasoning [0.033842793760651545]
大きな言語モデル(LLM)は、一見自明なタスクで失敗モードを示す。
決定論的マルチテープチューリングマシンを用いたインタラクションの形式化を提案する。
このモデルは、特定のパイプラインステージへの障害モードの正確なローカライズを可能にする。
論文 参考訳(メタデータ) (2026-01-27T16:12:01Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Language Models over Canonical Byte-Pair Encodings [56.09166157337198]
トークンレベルの言語モデルにおいて、正準性を強制する手法を提案する。
正則性ミスの修正は,いくつかのモデルやコーパスの保持データの可能性を向上させることを示す。
論文 参考訳(メタデータ) (2025-06-09T17:26:14Z) - Algorithmic Capabilities of Random Transformers [49.73113518329544]
埋め込み層のみを最適化したランダムトランスフォーマーによって、どのような関数が学習できるかを検討する。
これらのランダムなトランスフォーマーは、幅広い意味のあるアルゴリズムタスクを実行することができる。
以上の結果から,これらのモデルが訓練される前にも,アルゴリズム能力がトランスフォーマに存在することが示唆された。
論文 参考訳(メタデータ) (2024-10-06T06:04:23Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Fantastically Ordered Prompts and Where to Find Them: Overcoming
Few-Shot Prompt Order Sensitivity [16.893758238773263]
少数のトレーニングサンプルしか持たなかった場合、GPT-3のような非常に大きな事前訓練された言語モデルは、競争力のある結果を示した。
サンプルが提供される順序は、ほぼ最先端の予測性能とランダムな推測性能の差であることを示す。
言語モデルの生成特性を利用して人工的な開発セットを構築し、このセットから候補置換のエントロピー統計に基づいて、実行者プロンプトを同定する。
論文 参考訳(メタデータ) (2021-04-18T09:29:16Z) - Unnatural Language Inference [48.45003475966808]
我々は、RoBERTaやBARTのような最先端のNLIモデルは、ランダムに並べ替えられた単語の例に不変であり、時にはよりよく機能することさえあります。
我々の発見は、自然言語理解モデルと、その進捗を測定するために使われるタスクが、本当に人間のような構文理解を必要とするという考えに疑問を投げかけている。
論文 参考訳(メタデータ) (2020-12-30T20:40:48Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z) - Exploring Software Naturalness through Neural Language Models [56.1315223210742]
ソフトウェア自然性仮説(Software Naturalness hypothesis)は、自然言語処理で使用されるのと同じ手法でプログラミング言語を理解することができると主張している。
この仮説は,事前学習されたトランスフォーマーベース言語モデルを用いて,コード解析タスクを実行することによって検討する。
論文 参考訳(メタデータ) (2020-06-22T21:56:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。