論文の概要: Towards an On-device Agent for Text Rewriting
- arxiv url: http://arxiv.org/abs/2308.11807v1
- Date: Tue, 22 Aug 2023 22:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:39:06.905426
- Title: Towards an On-device Agent for Text Rewriting
- Title(参考訳): テキスト書き換えのためのオンデバイスエージェントを目指して
- Authors: Yun Zhu, Yinxiao Liu, Felix Stahlberg, Shankar Kumar, Yu-hui Chen,
Liangchen Luo, Lei Shu, Renjie Liu, Jindong Chen, Lei Meng
- Abstract要約: モバイル中心のテキスト書き換えモデルを構築するための新しい命令チューニング手法を提案する。
我々の戦略は、人間のラベルを付けずに高品質なトレーニングデータを生成することができる。
我々は、自然言語によるメッセージのテキスト書き直しに焦点を当てたベンチマークであるMessageRewriteEvalを紹介した。
- 参考スコア(独自算出の注目度): 22.05671256490942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities for
text rewriting. Nonetheless, the large sizes of these models make them
impractical for on-device inference, which would otherwise allow for enhanced
privacy and economical inference. Creating a smaller yet potent language model
for text rewriting presents a formidable challenge because it requires
balancing the need for a small size with the need to retain the emergent
capabilities of the LLM, that requires costly data collection. To address the
above challenge, we introduce a new instruction tuning approach for building a
mobile-centric text rewriting model. Our strategies enable the generation of
high quality training data without any human labeling. In addition, we propose
a heuristic reinforcement learning framework which substantially enhances
performance without requiring preference data. To further bridge the
performance gap with the larger server-side model, we propose an effective
approach that combines the mobile rewrite agent with the server model using a
cascade. To tailor the text rewriting tasks to mobile scenarios, we introduce
MessageRewriteEval, a benchmark that focuses on text rewriting for messages
through natural language instructions. Through empirical experiments, we
demonstrate that our on-device model surpasses the current state-of-the-art
LLMs in text rewriting while maintaining a significantly reduced model size.
Notably, we show that our proposed cascading approach improves model
performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストの書き直し機能を示す。
それでも、これらのモデルのサイズが大きいため、デバイス上での推論には非現実的であり、そうでなければプライバシと経済的推論が強化される。
テキスト書き換えのための小さくて強力な言語モデルを作成することは、小さなサイズの必要性と、コストのかかるデータ収集を必要とするllmの創発的な機能を維持する必要性のバランスをとる必要があるため、非常に難しい課題となります。
以上の課題に対処するため,モバイル中心のテキスト書き換えモデルを構築するための新しい命令チューニング手法を提案する。
我々の戦略は、人間のラベル付けなしで高品質なトレーニングデータを生成することができる。
さらに,選好データを必要とせず,性能を大幅に向上させるヒューリスティック強化学習フレームワークを提案する。
性能ギャップをサーバサイドモデルにさらに橋渡しするために,モバイルリライトエージェントとカスケードを用いたサーバモデルを組み合わせた効果的なアプローチを提案する。
テキスト書き換えタスクをモバイルシナリオに合わせるため、我々は、自然言語命令によるメッセージのテキスト書き換えに焦点を当てたベンチマークであるmessagerewriteevalを導入した。
実験により,我々のオンデバイスモデルは,テキストの書き直しにおける現在のLLMをはるかに上回りながら,モデルサイズを著しく小さくすることを示した。
特に,提案手法がモデル性能を向上させることを示す。
関連論文リスト
- Chunk-Distilled Language Modeling [25.238256586953487]
Chunk-Distilled Language Modeling (CD-LM)は、現在の大規模言語モデル(LLM)における2つの課題に対処するテキスト生成のアプローチである。
提案手法は,ディープネットワークベースのLCMと簡単な検索モジュールを組み合わせることで,単一のデコードステップでマルチトークンテキストチャンクを生成する。
論文 参考訳(メタデータ) (2024-12-31T08:32:15Z) - Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models and Large Language Models [52.23899502520261]
本稿では,テキスト構造の学習に特化するために,専用のテキスト拡散モデルを組み込んだARTISTという新しいフレームワークを紹介する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
この歪んだアーキテクチャ設計とトレーニング戦略は、テキストリッチな画像生成のための拡散モデルのテキストレンダリング能力を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - DREAM: Improving Video-Text Retrieval Through Relevance-Based Augmentation Using Large Foundation Models [12.393189634359064]
本稿では、Relevance-based AugMentation(DREAM)を用いたViDeoText Retrieval Paradigmを提案する。
我々はまず,単語やフレームをランダムに複製あるいはドロップすることで,自己相似データを生成する単純な拡張手法を採用する。
ビデオやテキスト情報をさらに強化するために,LLMとVGMが関連情報を生成・統合する関連性に基づく拡張手法を提案する。
論文 参考訳(メタデータ) (2024-04-07T21:46:47Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Specializing Small Language Models towards Complex Style Transfer via
Latent Attribute Pre-Training [29.143887057933327]
複雑なテキストスタイルの転送タスクの概念を導入し、2つの広く適用可能なシナリオに基づいて複雑なテキストデータセットを構築した。
我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。
論文 参考訳(メタデータ) (2023-09-19T21:01:40Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。