論文の概要: G-SPEED: General SParse Efficient Editing MoDel
- arxiv url: http://arxiv.org/abs/2310.10480v1
- Date: Mon, 16 Oct 2023 15:01:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 13:35:41.754048
- Title: G-SPEED: General SParse Efficient Editing MoDel
- Title(参考訳): G-SPEED: 一般的なSParse効率のよいMoDel
- Authors: Haoke Zhang, Yue Wang, Juntao Li, Xiabing Zhou, Min Zhang
- Abstract要約: underlinetextbfGeneral underlinetextbfSParse underlinetextbfEfficient underlinetextbfEditing MounderlinetextbfDel(textbfG-SPEED)
- 参考スコア(独自算出の注目度): 25.48360227520061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models~(LLMs) have demonstrated incredible capabilities in
understanding, generating, and manipulating languages. Through human-model
interactions, LLMs can automatically understand human-issued instructions and
output the expected contents, which can significantly increase working
efficiency. In various types of real-world demands, editing-oriented tasks
account for a considerable proportion, which involves an interactive process
that entails the continuous refinement of existing texts to meet specific
criteria. Due to the need for multi-round human-model interaction and the
generation of complicated editing tasks, there is an emergent need for
efficient general editing models. In this paper, we propose
\underline{\textbf{G}}eneral \underline{\textbf{SP}}arse
\underline{\textbf{E}}fficient \underline{\textbf{E}}diting
Mo\underline{\textbf{D}}el~(\textbf{G-SPEED}), which can fulfill diverse
editing requirements through a single model while maintaining low computational
costs. Specifically, we first propose a novel unsupervised text editing data
clustering algorithm to deal with the data scarcity problem. Subsequently, we
introduce a sparse editing model architecture to mitigate the inherently
limited learning capabilities of small language models. The experimental
outcomes indicate that G-SPEED, with its 508M parameters, can surpass LLMs
equipped with 175B parameters. Our code and model checkpoints are available at
\url{https://github.com/Banner-Z/G-SPEED}.
- Abstract(参考訳): 大きな言語モデル~(LLM)は、言語を理解し、生成し、操作する素晴らしい能力を示しています。
人-モデル相互作用により、LLMは人-発行された命令を自動的に理解し、期待する内容を出力し、作業効率を大幅に向上させることができる。
様々な実世界の要求において、編集指向のタスクはかなりの割合を占めており、特定の基準を満たすために既存のテキストを継続的に改良するインタラクティブなプロセスを含んでいる。
マルチラウンドの人-モデルインタラクションの必要性と複雑な編集タスクの生成により、効率的な汎用的な編集モデルが求められている。
本稿では,計算コストを低く抑えつつ,単一のモデルを通じて多様な編集要件を満たすことができる,\underline{\textbf{g}}eneral \underline{\textbf{sp}}arse \underline{\textbf{e}}fficient \underline{\textbf{e}}diting mo\underline{\textbf{d}}el~(\textbf{g-speed})を提案する。
具体的には,まず,データ不足問題に対処するために,教師なしテキスト編集データクラスタリングアルゴリズムを提案する。
次に,小言語モデルの学習能力に固有の制限を緩和するために,スパース編集モデルアーキテクチャを導入する。
実験結果から,G-SPEEDのパラメータは5800万であり,LLMのパラメータは175Bを超えることがわかった。
コードとモデルチェックポイントは \url{https://github.com/Banner-Z/G-SPEED} で利用可能です。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Reference Trustable Decoding: A Training-Free Augmentation Paradigm for Large Language Models [79.41139393080736]
大規模言語モデル(LLM)は急速に進歩し、印象的な機能を示している。
In-Context Learning (ICL) など。
効率的なファインチューニング(PEFT)は、現在2つの主要な拡張方法である。
下流タスクへのLLM。
我々は、モデルが微調整なしで新しいタスクに迅速に適応できるパラダイムである参照信頼復号(RTD)を提案する。
論文 参考訳(メタデータ) (2024-09-30T10:48:20Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [71.85120354973073]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - ACT-MNMT Auto-Constriction Turning for Multilingual Neural Machine
Translation [38.30649186517611]
この課題はtextbfunderlineAuto-textbfunderlineConstriction textbfunderlineTurning mechanism for textbfunderlineMultilingual textbfunderlineNeural textbfunderlineMachine textbfunderlineTranslation (model)を導入している。
論文 参考訳(メタデータ) (2024-03-11T14:10:57Z) - ReasoningLM: Enabling Structural Subgraph Reasoning in Pre-trained
Language Models for Question Answering over Knowledge Graph [142.42275983201978]
本稿では,構造化推論を行うためのGNNを模倣するサブグラフ認識型自己認識機構を提案する。
また、モデルパラメータを2万のサブグラフで合成した質問に適応するための適応チューニング戦略も採用する。
実験により、ReasoningLMは、更新されたパラメータが少なく、トレーニングデータが少ない場合でも、最先端のモデルを大きなマージンで上回っていることが示された。
論文 参考訳(メタデータ) (2023-12-30T07:18:54Z) - Split and Rephrase with Large Language Models [2.499907423888049]
Split and Rephrase (SPRP) タスクは、複雑な文を短い文法文の列に分割する。
タスク上の大きな言語モデルを評価し、主要なメトリクスに基づいて、技術の現状を大幅に改善できることを示します。
論文 参考訳(メタデータ) (2023-12-18T10:16:37Z) - Controlled Text Generation via Language Model Arithmetic [7.687678490751105]
本稿では,大規模言語モデルの合成とバイアス化のための新しい推論フレームワークであるモデル演算を導入する。
モデル算術により生成したテキストのきめ細かい制御が可能であり, 毒性低減の課題において, 最先端の処理性能に優れることを示す。
論文 参考訳(メタデータ) (2023-11-24T13:41:12Z) - Massive Editing for Large Language Models via Meta Learning [27.972194696587813]
大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にするが、取得した知識は時間とともに根本的に誤りまたは時代遅れになる可能性がある。
パラメータシフト集約を最小二乗問題として定式化するMALMEN(Massive Language Model Editing Network)を提案する。
提案手法は, BERTベース, GPT-2, T5-XL (2.8B), GPT-J (6B) などの異なるアーキテクチャを持つLM上で, 数千件の事実を編集して評価する。
論文 参考訳(メタデータ) (2023-11-08T13:03:06Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Speculative Decoding with Big Little Decoder [108.95187338417541]
Big Little Decoder (BiLD) は、幅広いテキスト生成アプリケーションの推論効率と遅延を改善するフレームワークである。
NVIDIA T4 GPUでは、当社のフレームワークは最大2.12倍の高速化を実現し、生成品質の最小化を実現している。
私たちのフレームワークは完全にプラグアンドプレイで、トレーニングプロセスやモデルアーキテクチャの変更なしに適用できます。
論文 参考訳(メタデータ) (2023-02-15T18:55:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。