論文の概要: Enhancing RWKV-based Language Models for Long-Sequence Text Generation
- arxiv url: http://arxiv.org/abs/2502.15485v2
- Date: Mon, 24 Feb 2025 14:30:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 12:07:57.524469
- Title: Enhancing RWKV-based Language Models for Long-Sequence Text Generation
- Title(参考訳): 時系列テキスト生成のためのRWKVに基づく言語モデルの構築
- Authors: Xinghan Pan,
- Abstract要約: 本稿では、長文言語モデリングを改善するための適応時間ゲーティング機構を備えた拡張RWKVアーキテクチャを提案する。
本研究では,(1)グローバルコヒーレンスを保ちながら局所的な統語パターンを捉える位置認識畳み込みシフト演算子,(2)知識間の情報の流れを動的に制御する神経伝達情報ルーティング機構を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: This paper introduces an enhanced RWKV architecture with adaptive temporal gating mechanisms for improved long-context language modeling. We propose two principal innovations: (1) a position-aware convolutional shift operator that captures local syntactic patterns while preserving global coherence, and (2) a neurally-gated information routing mechanism that dynamically regulates inter-token information flow. Through comprehensive experiments on text generation tasks, our enhanced model demonstrates superior performance compared to the baseline RWKV, achieving 96.5 relative improvement in ROUGE-L scores with only 2.95 increased inference latency. Ablation studies validate the individual contributions of each component, while linguistic analysis reveals the model's adaptive attention to syntactic boundaries and entity coherence. The proposed modifications maintain RWKV's linear computational complexity while significantly enhancing its contextual modeling capabilities, establishing new state-of-the-art performance for recurrent-style architectures in long-form text generation.
- Abstract(参考訳): 本稿では、長文言語モデリングを改善するための適応時間ゲーティング機構を備えた拡張RWKVアーキテクチャを提案する。
本研究では,(1)グローバルコヒーレンスを保ちながら局所的な統語パターンを捉える位置認識畳み込みシフト演算子,(2)知識間の情報の流れを動的に制御する神経伝達情報ルーティング機構を提案する。
テキスト生成タスクの総合的な実験を通じて,拡張モデルはベースラインRWKVよりも優れた性能を示し,ROUGE-Lスコアが96.5向上し,推論遅延はわずか2.95向上した。
アブレーション研究は各コンポーネントの個々の貢献を検証し、言語学的分析はモデルが構文境界と実体コヒーレンスに適応していることを明らかにする。
提案した修正は、RWKVの線形計算複雑性を維持しつつ、コンテキストモデリング能力を大幅に向上させ、長文生成におけるリカレントスタイルアーキテクチャのための新しい最先端性能を確立した。
関連論文リスト
- GASE: Generatively Augmented Sentence Encoding [0.0]
本稿では,データ拡張のための生成テキストモデルを推論時に適用することにより,文の埋め込みを強化する手法を提案する。
Generatively Augmented Sentenceは、パラフレーズ、要約、あるいはキーワードの抽出によって生成される入力テキストの多様な合成変種を使用する。
生成的拡張により,ベースライン性能の低い埋め込みモデルの性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-11-07T17:53:47Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - A Cross-Attention Augmented Model for Event-Triggered Context-Aware
Story Generation [28.046803293933213]
生成したストーリーの関連性とコヒーレンスを高める新しいニューラルジェネレーションモデルであるEtriCAを導入する。
我々は、大規模書籍コーパスに知識向上のためのポストトレーニングフレームワーク(KeEtriCA)を採用。
その結果、自動測定では約5%が改善され、人間の評価では10%以上が改善された。
論文 参考訳(メタデータ) (2023-11-19T08:54:47Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Learning Evaluation Models from Large Language Models for Sequence
Generation [44.22820310679188]
大規模言語モデルは、シーケンス生成評価において最先端のパフォーマンスを達成するが、典型的には多数のパラメータを持つ。
テキスト評価用textbfcapability textbftransfer 法である textbfECT を提案し,その評価能力を LLM から比較的軽量な言語モデルに転送する。
提案するECTに基づいて、ChatGPTから様々な評価モデルを学び、それらを報酬モデルとして利用してシーケンス生成モデルを改善する。
論文 参考訳(メタデータ) (2023-08-08T16:41:16Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z) - RSTGen: Imbuing Fine-Grained Interpretable Control into Long-FormText
Generators [26.27412809287025]
RSTGenは、生成されたテキストの談話構造、セマンティクス、トピックを制御するフレームワークである。
オープンジェネレーション評価において、生成したテキストの構造的言論と意味的特徴を制御できるモデルの能力を実証する。
論文 参考訳(メタデータ) (2022-05-25T09:06:04Z) - Non-Autoregressive Text Generation with Pre-trained Language Models [40.50508206201288]
BERTはNAGモデルのバックボーンとして利用でき、性能を大幅に向上できることを示す。
バニラNAGモデルの2つの共通問題を緩和するメカニズムを考案する。
本稿では,出力長を事前に推定できる新しいデコード戦略である ratio-first を提案する。
論文 参考訳(メタデータ) (2021-02-16T15:30:33Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z) - Improving Text Generation with Student-Forcing Optimal Transport [122.11881937642401]
トレーニングモードとテストモードで生成されたシーケンスに最適なトランスポート(OT)を提案する。
テキストシーケンスの構造的および文脈的情報に基づいて、OT学習を改善するための拡張も提案されている。
提案手法の有効性は,機械翻訳,テキスト要約,テキスト生成タスクにおいて検証される。
論文 参考訳(メタデータ) (2020-10-12T19:42:25Z) - Improving Adversarial Text Generation by Modeling the Distant Future [155.83051741029732]
テキスト計画手法を考察し、上記の問題を緩和するためのモデルに基づく模倣学習手法を提案する。
本稿では,より長い地平線上の生成過程に焦点をあてる新しいガイドネットワークを提案する。
論文 参考訳(メタデータ) (2020-05-04T05:45:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。