論文の概要: Sequence Repetition Enhances Token Embeddings and Improves Sequence Labeling with Decoder-only Language Models
- arxiv url: http://arxiv.org/abs/2601.17585v1
- Date: Sat, 24 Jan 2026 20:49:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.003509
- Title: Sequence Repetition Enhances Token Embeddings and Improves Sequence Labeling with Decoder-only Language Models
- Title(参考訳): シークエンス反復はトークンの埋め込みを促し、デコーダのみの言語モデルによるシークエンスラベリングを改善する
- Authors: Matija Luka Kukić, Marko Čuljak, David Dukić, Martin Tutek, Jan Šnajder,
- Abstract要約: シーケンス反復(SR)はデコーダのみのモデルで双方向性を実現するための、より侵襲的な代替手段である。
SRは本質的にデコーダを双方向にし,トークンレベルの埋め込みの品質を向上し,エンコーダや非マスケデコーダを超越することを示す。
以上の結果から,SRはデコーダの構造的制約を緩和し,より効率的で適応可能なLMを実現し,他のトークンレベルタスクにも適用可能であることが示唆された。
- 参考スコア(独自算出の注目度): 2.91425891370655
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern language models (LMs) are trained in an autoregressive manner, conditioned only on the prefix. In contrast, sequence labeling (SL) tasks assign labels to each individual input token, naturally benefiting from bidirectional context. This discrepancy has historically led SL to rely on inherently bidirectional encoder-only models. However, the rapid development of decoder-only models has raised the question of whether they can be adapted to SL. While causal mask removal has emerged as a viable technique for adapting decoder-only models to leverage the full context for SL, it requires considerable changes to the base model functionality. In this work, we explore sequence repetition (SR) as a less invasive alternative for enabling bidirectionality in decoder-only models. Through fine-tuning experiments, we show that SR inherently makes decoders bidirectional, improving the quality of token-level embeddings and surpassing encoders and unmasked decoders. Contrary to earlier claims, we find that increasing the number of repetitions does not degrade SL performance. Finally, we demonstrate that embeddings from intermediate layers are highly effective for SR, comparable to those from final layers, while being significantly more efficient to compute. Our findings underscore that SR alleviates the structural limitations of decoders, enabling more efficient and adaptable LMs and broadening their applicability to other token-level tasks.
- Abstract(参考訳): 現代の言語モデル(LM)は自己回帰的に訓練され、接頭辞にのみ条件付けされる。
対照的に、シーケンスラベリング(SL)タスクは、双方向コンテキストの恩恵を受けながら、個々の入力トークンにラベルを割り当てる。
この違いは歴史的に、SLは本質的に双方向エンコーダのみのモデルに依存してきた。
しかし、デコーダのみのモデルが急速に開発され、SLに適応できるかどうかという疑問が持ち上がっている。
因果マスク除去は、SLのフルコンテキストを活用するためにデコーダのみのモデルを適用するための実行可能な技術として登場したが、ベースモデル機能にかなりの変更を加える必要がある。
本研究では、デコーダのみのモデルで双方向性を実現するための、より侵襲的な方法としてシーケンス反復(SR)について検討する。
微調整実験により、SRは本質的にデコーダを双方向にし、トークンレベルの埋め込みの品質を改善し、エンコーダや非マスケデコーダを超越することを示した。
従来の主張とは対照的に,繰り返し回数の増加はSL性能を低下させるものではない。
最後に、中間層からの埋め込みは、最終層に匹敵するSRに対して非常に効果的であり、計算の効率は著しく向上することを示した。
その結果、SRはデコーダの構造的制約を緩和し、より効率的で適応可能なLMを実現し、他のトークンレベルタスクにも適用可能であることが示された。
関連論文リスト
- Hybrid Autoencoders for Tabular Data: Leveraging Model-Based Augmentation in Low-Label Settings [13.591018807414484]
本稿では,ニューラルエンコーダと難解なソフト決定木(OSDT)エンコーダを組み合わせたハイブリッドオートエンコーダを提案する。
提案手法は,多種多様なデータセットにまたがる低ラベル分類と回帰において一貫した向上を実現し,深部および木に基づく教師付きベースラインを向上する。
論文 参考訳(メタデータ) (2025-11-10T11:08:39Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Supervised In-Context Fine-Tuning for Generative Sequence Labeling [1.5606248019654914]
生成SLのための教師付きインコンテキスト微調整(SIFT)を提案する。
SIFTは、SLタスクをLLMに自然に制約された応答生成としてキャストし、デモからコンテキスト内学習(ICL)と教師付き微調整を組み合わせた。
ICLとSIFTの両方において、長い文脈では生成SLの性能が損なわれるが、この欠損は命令を除去することで軽減できる。
論文 参考訳(メタデータ) (2025-08-31T16:06:12Z) - Diffusion Language Models Know the Answer Before Decoding [56.96815863705218]
拡散言語モデル (DLM) は自己回帰的アプローチの代替として登場した。
我々の研究は、DLMの早期回答収束の見過ごされた特性を強調し、活用する。
Prophetは、早期コミット復号を可能にするトレーニングフリーの高速復号化パラダイムである。
論文 参考訳(メタデータ) (2025-08-27T15:40:25Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Leveraging Pretrained ASR Encoders for Effective and Efficient
End-to-End Speech Intent Classification and Slot Filling [13.515248068374625]
本稿では,音声認識(ASR)で事前訓練されたエンコーダを用いて,エンド・ツー・エンド(E2E)コンバータ・トランスフォーマーモデルの初期化を提案する。
SLURPデータセットでは,90.14%の意図精度,82.27%のSLURP-F1が得られた。
論文 参考訳(メタデータ) (2023-07-13T20:50:19Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Less is More: Pre-training a Strong Siamese Encoder Using a Weak Decoder [75.84152924972462]
多くの実世界のアプリケーションはSiameseネットワークを使用して、テキストシーケンスを大規模に効率的にマッチングします。
本稿では,シームズアーキテクチャにおけるシーケンスマッチング専用の言語モデルを事前学習する。
論文 参考訳(メタデータ) (2021-02-18T08:08:17Z) - Fast Interleaved Bidirectional Sequence Generation [90.58793284654692]
左右方向と左右方向を同時に生成するデコーダを提案する。
一方向デコードのための標準アーキテクチャを簡単に双方向デコーダに変換することができることを示す。
我々のインターリーブ双方向デコーダ (IBDecoder) は標準変換器のモデル単純性と訓練効率を保っている。
論文 参考訳(メタデータ) (2020-10-27T17:38:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。