論文の概要: Sentence Curve Language Models
- arxiv url: http://arxiv.org/abs/2602.01807v2
- Date: Tue, 03 Feb 2026 03:49:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.863997
- Title: Sentence Curve Language Models
- Title(参考訳): 文曲線言語モデル
- Authors: DongNyeong Heo, Heeyoul Choi,
- Abstract要約: 文曲線言語モデル(SCLM)と呼ばれる連続文表現を提案する。
文曲線予測は,グローバルな構造モデリングを促進する正規化効果を誘導することを示す。
SCLM は IWSLT14 および WMT14 上での DLM のSOTA 性能を達成し, 重大な知識蒸留を伴わない安定した訓練を行い, LM1B 上の離散 DLM と比較して有望なポテンシャルを示した。
- 参考スコア(独自算出の注目度): 1.0026496861838448
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Language models (LMs) are a central component of modern AI systems, and diffusion-based language models (DLMs) have recently emerged as a competitive alternative. Both paradigms rely on word embeddings not only to represent the input sentence, but also to represent the target sentence that backbone models are trained to predict. We argue that such static embedding of the target word is insensitive to neighboring words, encouraging locally accurate word prediction while neglecting global structure across the target sentence. To address this limitation, we propose a continuous sentence representation, termed sentence curve, defined as a spline curve whose control points affect multiple words in the sentence. Based on this representation, we introduce sentence curve language model (SCLM), which extends DLMs to predict sentence curves instead of the static word embeddings. We theoretically show that sentence curve prediction induces a regularization effect that promotes global structure modeling, and characterize how different sentence curve types affect this behavior. Empirically, SCLM achieves SOTA performance among DLMs on IWSLT14 and WMT14, shows stable training without burdensome knowledge distillation, and demonstrates promising potential compared to discrete DLMs on LM1B.
- Abstract(参考訳): 言語モデル(LM)は現代のAIシステムの中心的なコンポーネントであり、拡散ベース言語モデル(DLM)は近年、競合する代替手段として現れている。
どちらのパラダイムも、入力文を表すだけでなく、バックボーンモデルが予測するために訓練されたターゲット文を表現するために、単語の埋め込みに依存している。
このような静的な単語の埋め込みは、隣接する単語には不感であり、ターゲット文全体にわたるグローバルな構造を無視しながら、局所的に正確な単語予測を奨励する。
この制限に対処するために,制御点が文中の複数の単語に影響を与えるスプライン曲線として定義される連続文表現,いわゆる文曲線を提案する。
この表現に基づいて,静的単語埋め込みの代わりにDLMを拡張して文曲線を予測する文曲線言語モデル(SCLM)を導入する。
理論的には、文曲線予測は、グローバルな構造モデリングを促進する正規化効果を誘導し、異なる文曲線のタイプがこの振る舞いにどのように影響するかを特徴付ける。
SCLMはIWSLT14およびWMT14上でのDLMのSOTA性能を実証的に達成し, 重大な知識蒸留を伴わずに安定した訓練を行い, LM1B上での離散DLMと比較して有望なポテンシャルを示した。
関連論文リスト
- Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Next Semantic Scale Prediction via Hierarchical Diffusion Language Models [31.562156001116673]
HDLMは階層的な語彙の上に構築されており、細かな意味を持つ低レベルのトークンは、粗い粒度の意味を持つ高レベルのトークンに全射的にマッピングされる。
前処理では、各トークンは、スケジューラに従ってより抽象的なセマンティクスを持つ上位の祖先に独立に摂動される。
逆のプロセスでは、モデルは次のより詳細なセマンティクスを徐々に予測します。
論文 参考訳(メタデータ) (2025-10-08T17:41:12Z) - Static Word Embeddings for Sentence Semantic Representation [9.309861078245756]
文意味表現に最適化された静的単語埋め込みを提案する。
まず、事前学習した文変換器から単語埋め込みを抽出し、文レベルの主成分分析により改善する。
推論では,単語の埋め込みを単純に平均化することで文を表現するが,計算コストは少ない。
論文 参考訳(メタデータ) (2025-06-05T04:33:10Z) - Refining Sentence Embedding Model through Ranking Sentences Generation with Large Language Models [60.00178316095646]
多くのNLPタスクには文の埋め込みが不可欠であり、NLIのようなデータセットを使用して強いパフォーマンスを達成する対照的な学習方法がある。
近年の研究では、大きな言語モデル(LLM)を利用して文ペアを生成し、アノテーション依存を減らしている。
本稿では,潜在空間におけるLLMの生成方向を制御する手法を提案する。
複数のベンチマークによる実験により,本手法は文合成に要するコストを最小限に抑えつつ,新たなSOTA性能を実現することを示した。
論文 参考訳(メタデータ) (2025-02-19T12:07:53Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Large language models implicitly learn to straighten neural sentence
trajectories to construct a predictive representation of natural language [2.1756081703276]
自己回帰変換器の予測表現に関する仮説を検証した。
重要な洞察は、直線的な軌道は線形外挿による予測を促進するべきであるということである。
1次元曲率計を用いて直線性を定量化する。
論文 参考訳(メタデータ) (2023-11-05T22:16:21Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。