論文の概要: Towards an On-device Agent for Text Rewriting
- arxiv url: http://arxiv.org/abs/2308.11807v1
- Date: Tue, 22 Aug 2023 22:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-24 16:39:06.905426
- Title: Towards an On-device Agent for Text Rewriting
- Title(参考訳): テキスト書き換えのためのオンデバイスエージェントを目指して
- Authors: Yun Zhu, Yinxiao Liu, Felix Stahlberg, Shankar Kumar, Yu-hui Chen,
Liangchen Luo, Lei Shu, Renjie Liu, Jindong Chen, Lei Meng
- Abstract要約: モバイル中心のテキスト書き換えモデルを構築するための新しい命令チューニング手法を提案する。
我々の戦略は、人間のラベルを付けずに高品質なトレーニングデータを生成することができる。
我々は、自然言語によるメッセージのテキスト書き直しに焦点を当てたベンチマークであるMessageRewriteEvalを紹介した。
- 参考スコア(独自算出の注目度): 22.05671256490942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities for
text rewriting. Nonetheless, the large sizes of these models make them
impractical for on-device inference, which would otherwise allow for enhanced
privacy and economical inference. Creating a smaller yet potent language model
for text rewriting presents a formidable challenge because it requires
balancing the need for a small size with the need to retain the emergent
capabilities of the LLM, that requires costly data collection. To address the
above challenge, we introduce a new instruction tuning approach for building a
mobile-centric text rewriting model. Our strategies enable the generation of
high quality training data without any human labeling. In addition, we propose
a heuristic reinforcement learning framework which substantially enhances
performance without requiring preference data. To further bridge the
performance gap with the larger server-side model, we propose an effective
approach that combines the mobile rewrite agent with the server model using a
cascade. To tailor the text rewriting tasks to mobile scenarios, we introduce
MessageRewriteEval, a benchmark that focuses on text rewriting for messages
through natural language instructions. Through empirical experiments, we
demonstrate that our on-device model surpasses the current state-of-the-art
LLMs in text rewriting while maintaining a significantly reduced model size.
Notably, we show that our proposed cascading approach improves model
performance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストの書き直し機能を示す。
それでも、これらのモデルのサイズが大きいため、デバイス上での推論には非現実的であり、そうでなければプライバシと経済的推論が強化される。
テキスト書き換えのための小さくて強力な言語モデルを作成することは、小さなサイズの必要性と、コストのかかるデータ収集を必要とするllmの創発的な機能を維持する必要性のバランスをとる必要があるため、非常に難しい課題となります。
以上の課題に対処するため,モバイル中心のテキスト書き換えモデルを構築するための新しい命令チューニング手法を提案する。
我々の戦略は、人間のラベル付けなしで高品質なトレーニングデータを生成することができる。
さらに,選好データを必要とせず,性能を大幅に向上させるヒューリスティック強化学習フレームワークを提案する。
性能ギャップをサーバサイドモデルにさらに橋渡しするために,モバイルリライトエージェントとカスケードを用いたサーバモデルを組み合わせた効果的なアプローチを提案する。
テキスト書き換えタスクをモバイルシナリオに合わせるため、我々は、自然言語命令によるメッセージのテキスト書き換えに焦点を当てたベンチマークであるmessagerewriteevalを導入した。
実験により,我々のオンデバイスモデルは,テキストの書き直しにおける現在のLLMをはるかに上回りながら,モデルサイズを著しく小さくすることを示した。
特に,提案手法がモデル性能を向上させることを示す。
関連論文リスト
- Enhancing Short-Text Topic Modeling with LLM-Driven Context Expansion and Prefix-Tuned VAEs [25.915607750636333]
本稿では,大規模言語モデル(LLM)を利用して,トピックモデリングを適用する前に,短いテキストをより詳細なシーケンスに拡張する手法を提案する。
提案手法は,データ空間が極端である実世界のデータセットに対する広範な実験により,短文のトピックモデリング性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-10-04T01:28:56Z) - Boosting the Capabilities of Compact Models in Low-Data Contexts with Large Language Models and Retrieval-Augmented Generation [2.9921619703037274]
本稿では,形態素解析の言語タスクにおいて,より小さなモデルの出力を補正するために,大言語モデル(LLM)を基盤とした検索拡張生成(RAG)フレームワークを提案する。
データ不足や訓練可能なパラメータの不足を補うために,言語情報を活用するとともに,LLMを通して解釈・蒸留された記述文法からの入力を許容する。
コンパクトなRAG支援モデルがデータスカース設定に極めて有効であることを示し、このタスクとターゲット言語に対する新しい最先端技術を実現する。
論文 参考訳(メタデータ) (2024-10-01T04:20:14Z) - ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。
我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。
MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文 参考訳(メタデータ) (2024-06-17T19:31:24Z) - Retrieval is Accurate Generation [99.24267226311157]
本稿では,支援文書の集合からコンテキスト認識句を選択する新しい手法を提案する。
本モデルでは,検索対象のベースラインの中で,最高の性能と低レイテンシを実現する。
論文 参考訳(メタデータ) (2024-02-27T14:16:19Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Aligning Large Language Models with Counterfactual DPO [1.8130068086063336]
本稿では,人的介入に頼らずにモデルスタイルを整列させる反事実的プロンプトの利用について検討する。
本研究では,この手法が望ましい行動を効果的に抑制し,望ましくない行動を緩和し,不適切な指示を無視するようモデルに促すことを実証する。
論文 参考訳(メタデータ) (2024-01-17T19:43:43Z) - Let the Pretrained Language Models "Imagine" for Short Texts Topic
Modeling [29.87929724277381]
短いテキストでは、共起情報は最小限であり、結果として文書表現の特徴が分散する。
既存のトピックモデル(確率的あるいは神経的)は、ほとんどの場合、一貫性のあるトピックを生成するためにパターンのマイニングに失敗します。
既存の事前学習言語モデル(PLM)を用いて、短いテキストを長いシーケンスに拡張する。
論文 参考訳(メタデータ) (2023-10-24T00:23:30Z) - Specializing Small Language Models towards Complex Style Transfer via
Latent Attribute Pre-Training [29.143887057933327]
複雑なテキストスタイルの転送タスクの概念を導入し、2つの広く適用可能なシナリオに基づいて複雑なテキストデータセットを構築した。
我々のデータセットは、ゲームGenshin Impactの700文と1000文からなる、この種の最初の大規模データセットである。
論文 参考訳(メタデータ) (2023-09-19T21:01:40Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z) - LAFITE: Towards Language-Free Training for Text-to-Image Generation [83.2935513540494]
テキストデータなしでテキストから画像への生成モデルをトレーニングするための最初の作業を提案する。
提案手法は,CLIPモデルのマルチモーダルなセマンティック空間の整合性を活用している。
我々は,標準的なテキスト・画像生成タスクにおいて,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-27T01:54:45Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。