論文の概要: Context-Preserving Gradient Modulation for Large Language Models: A Novel Approach to Semantic Consistency in Long-Form Text Generation
- arxiv url: http://arxiv.org/abs/2502.03643v1
- Date: Wed, 05 Feb 2025 22:13:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 14:33:08.670216
- Title: Context-Preserving Gradient Modulation for Large Language Models: A Novel Approach to Semantic Consistency in Long-Form Text Generation
- Title(参考訳): 大規模言語モデルのための文脈保存型グラディエント変調:長文生成における意味的一貫性に対する新しいアプローチ
- Authors: Nirola Kobanov, Edmund Weatherstone, Zachary Vanderpoel, Orlando Wetherby,
- Abstract要約: 文脈的関連性に応じてパラメータ更新を動的に調整する新しい変調勾配法が導入された。
提案手法は,計算オーバーヘッドを著しく抑えることなく,モデル生成物語の安定性を向上させる。
- 参考スコア(独自算出の注目度): 0.19791587637442667
- License:
- Abstract: Maintaining semantic consistency over extended text sequences remains a fundamental challenge in long-form text generation, where conventional training methodologies often struggle to prevent contextual drift and coherence degradation. A novel gradient modulation approach is introduced, designed to adjust parameter updates dynamically in response to contextual relevance, ensuring that generated text remains aligned with prior discourse. By integrating a modulation function that selectively amplifies or attenuates gradients based on learned contextual dependencies, the proposed method enhances the stability of model-generated narratives without imposing significant computational overhead. Comparative evaluations against baseline models reveal improvements in coherence, contextual retention, and long-range dependency tracking, demonstrating the effectiveness of modifying the learning process at the gradient level. The results indicate that sentence structure variability and lexical diversity benefit from this approach, mitigating repetitive phrasing and improving adaptability across diverse linguistic contexts. Statistical validation of coherence metrics further substantiates the observed enhancements, with a significant reduction in inconsistencies emerging as a direct consequence of the modulation mechanism. Computational efficiency assessments confirm that the framework achieves these gains without requiring substantial modifications to the underlying architecture, ensuring compatibility with existing optimization workflows.
- Abstract(参考訳): 拡張テキストシーケンスのセマンティック一貫性を維持することは、文脈的ドリフトやコヒーレンス劣化を防ぐために従来のトレーニング手法が苦労する長文テキスト生成において、依然として基本的な課題である。
文脈的関連性に応じてパラメータ更新を動的に調整し、生成したテキストが事前の談話に一致し続けることを保証するために、新しい勾配変調手法が導入された。
学習した文脈依存に基づいて勾配を選択的に増幅または減衰する変調関数を統合することにより,提案手法は,計算オーバーヘッドを伴わずにモデル生成物語の安定性を向上させる。
ベースラインモデルとの比較評価では,コヒーレンス,コンテキスト保持,長期依存性追跡の改善が示され,勾配レベルでの学習プロセスの変更の有効性が示された。
その結果, 文構造の変化と語彙の多様性は, 反復的な言い回しを緩和し, 多様な言語文脈における適応性を向上させることによって, このアプローチの恩恵を受けることが示唆された。
コヒーレンス指標の統計的検証は、観測された拡張をさらに裏付けるものであり、変調機構の直接的な結果として不整合が著しく減少する。
計算効率評価では、基盤となるアーキテクチャに大幅な変更を加えることなく、既存の最適化ワークフローとの互換性を確保することなく、フレームワークがこれらの利益を達成することを確認した。
関連論文リスト
- Enhanced Transformer architecture for in-context learning of dynamical systems [0.3749861135832073]
本稿では,従来のメタモデリングフレームワークを3つの重要な革新を通じて強化する。
これらの修正の有効性は、Wiener-Hammerstein系クラスに焦点をあてた数値的な例を通して示される。
論文 参考訳(メタデータ) (2024-10-04T10:05:15Z) - In-Context Editing: Learning Knowledge from Self-Induced Distributions [29.10148782152867]
本研究では,1ホットターゲットではなくコンテキスト分布を最適化するために,Consistent In-Context Editing (ICE)を導入する。
ICEは、勾配に基づくチューニング手法の堅牢性と有効性を向上し、モデルの整合性を維持するのを防ぐ。
我々は、知識編集の4つの重要な側面、すなわち正確性、局所性、一般化、言語的品質を分析し、その利点を実証する。
論文 参考訳(メタデータ) (2024-06-17T04:00:04Z) - Pointer-Guided Pre-Training: Infusing Large Language Models with Paragraph-Level Contextual Awareness [3.2925222641796554]
ポインター誘導セグメントオーダリング(SO)は,段落レベルのテキスト表現の文脈的理解を高めることを目的とした,新しい事前学習手法である。
実験の結果,ポインタ誘導型事前学習は複雑な文書構造を理解する能力を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-06-06T15:17:51Z) - Enhancing Retrieval-Augmented LMs with a Two-stage Consistency Learning Compressor [4.35807211471107]
本研究では,検索強化言語モデルにおける検索情報圧縮のための2段階一貫性学習手法を提案する。
提案手法は複数のデータセットにまたがって実験的に検証され,質問応答タスクの精度と効率が顕著に向上したことを示す。
論文 参考訳(メタデータ) (2024-06-04T12:43:23Z) - Sequential Visual and Semantic Consistency for Semi-supervised Text
Recognition [56.968108142307976]
Scene Text Recognition (STR) は、大規模なアノテートデータを必要とする課題である。
既存のSTR法の多くは、STRモデルの性能を低下させ、ドメイン差を生じさせる合成データに頼っている。
本稿では,視覚的・意味的両面から単語レベルの整合性正則化を取り入れたSTRの半教師付き学習手法を提案する。
論文 参考訳(メタデータ) (2024-02-24T13:00:54Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Controllable Text Simplification with Explicit Paraphrasing [88.02804405275785]
テキストの単純化は、語彙パラフレーズ、削除、分割など、いくつかの書き換え変換を通じて文の可読性を向上させる。
現在の単純化システムは、主にシーケンス・ツー・シーケンスのモデルであり、これらすべての操作を同時に実行するためにエンドツーエンドで訓練されている。
そこで我々は,言語的に動機づけられた規則を用いて分割と削除を行い,それらをニューラルパラフレーズモデルと組み合わせて様々な書き直しスタイルを創出するハイブリッド手法を提案する。
論文 参考訳(メタデータ) (2020-10-21T13:44:40Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。