論文の概要: SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence
Understanding
- arxiv url: http://arxiv.org/abs/2308.10529v1
- Date: Mon, 21 Aug 2023 07:31:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:40:29.061159
- Title: SeqGPT: An Out-of-the-box Large Language Model for Open Domain Sequence
Understanding
- Title(参考訳): SeqGPT:オープンドメインシーケンス理解のためのアウトオブボックス大言語モデル
- Authors: Tianyu Yu, Chengyue Jiang, Chao Lou, Shen Huang, Xiaobin Wang, Wei
Liu, Jiong Cai, Yangning Li, Yinghui Li, Kewei Tu, Hai-Tao Zheng, Ningyu
Zhang, Pengjun Xie, Fei Huang, Yong Jiang
- Abstract要約: 大規模言語モデル(LLM)は、オープンドメインのNLPタスクに顕著な能力を示している。
本稿では、オープンドメインの自然言語理解に特化して強化された、バイリンガル(英語と中国語)のオープンソース自己回帰モデルSeqGPTを提案する。
- 参考スコア(独自算出の注目度): 103.34092301324425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown impressive ability for open-domain
NLP tasks. However, LLMs are sometimes too footloose for natural language
understanding (NLU) tasks which always have restricted output and input format.
Their performances on NLU tasks are highly related to prompts or demonstrations
and are shown to be poor at performing several representative NLU tasks, such
as event extraction and entity typing. To this end, we present SeqGPT, a
bilingual (i.e., English and Chinese) open-source autoregressive model
specially enhanced for open-domain natural language understanding. We express
all NLU tasks with two atomic tasks, which define fixed instructions to
restrict the input and output format but still ``open'' for arbitrarily varied
label sets. The model is first instruction-tuned with extremely fine-grained
labeled data synthesized by ChatGPT and then further fine-tuned by 233
different atomic tasks from 152 datasets across various domains. The
experimental results show that SeqGPT has decent classification and extraction
ability, and is capable of performing language understanding tasks on unseen
domains. We also conduct empirical studies on the scaling of data and model
size as well as on the transfer across tasks. Our model is accessible at
https://github.com/Alibaba-NLP/SeqGPT.
- Abstract(参考訳): 大規模言語モデル(LLM)は、オープンドメインのNLPタスクに素晴らしい能力を示している。
しかし、LLMは、常に出力と入力の形式に制限のある自然言語理解(NLU)タスクには不便すぎることがある。
NLUタスクのパフォーマンスはプロンプトやデモに強く関連しており、イベント抽出やエンティティタイピングといったいくつかの代表的なNLUタスクの実行には不適当であることが示されている。
この目的のために,オープンドメイン自然言語理解のために特別に強化されたバイリンガル(英語と中国語)のオープンソース自己回帰モデルであるseqgptを提案する。
すべてのnluタスクを2つのアトミックタスクで表現し、入力と出力のフォーマットを制限する固定命令を定義するが、任意に変化するラベルセットに対しては ``open''' のままである。
このモデルはまず、ChatGPTによって合成された非常にきめ細かいラベル付きデータで調整され、さらに様々な領域にわたる152データセットから233の異なる原子タスクによって微調整される。
実験の結果,SeqGPTは適切な分類と抽出能力を有し,未知の領域で言語理解タスクを実行できることがわかった。
また,データのスケーリングやモデルサイズ,タスク間の転送に関する実証研究も行っています。
私たちのモデルはhttps://github.com/Alibaba-NLP/SeqGPTでアクセスできます。
関連論文リスト
- SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Scaling Behavior of Machine Translation with Large Language Models under Prompt Injection Attacks [4.459306403129608]
大規模言語モデル(LLM)は多くの自然言語処理タスクにおいて好まれる基盤プラットフォームになりつつある。
彼らの汎用性は、要求命令に埋め込み、モデルが無許可でおそらく安全でない方法で振る舞うエンドユーザによって、それらをサブバージョンに開放する。
本研究では,これらのプロンプトインジェクション・アタック(PIA)をLLMの複数のファミリーで機械翻訳タスクに適用し,モデルサイズが攻撃成功率に与える影響に着目した。
論文 参考訳(メタデータ) (2024-03-14T19:39:10Z) - Few-Shot Cross-Lingual Transfer for Prompting Large Language Models in
Low-Resource Languages [0.0]
プロンプティング(prompting)とは、ユーザがタスクの説明と完了したタスクのいくつかの例を PLM にコンテキストとして提供し、PLM に新しい例でタスクを実行するように促す方法である。
提案手法は, 数発プロンプト(prompt), 言語適応微調整(LAFT), ニューラルマシン翻訳(Translate)の3種類である。
翻訳とプロンプトの設定は、選択した低リソース言語に対して、数ショットプロンプトの計算効率とコスト効率のよい方法であることがわかった。
論文 参考訳(メタデータ) (2024-03-09T21:36:13Z) - UniverSLU: Universal Spoken Language Understanding for Diverse Tasks with Natural Language Instructions [64.50935101415776]
我々は,様々な音声言語理解(SLU)タスクを共同で行う単一モデルを構築した。
我々は17のデータセットと9の言語にまたがる12の音声分類とシーケンス生成タスクタイプに対して,1つのマルチタスク学習モデル"UniverSLU"の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-04T17:10:23Z) - Coupling Large Language Models with Logic Programming for Robust and
General Reasoning from Text [5.532477732693001]
大規模言語モデルは, 意味論的に非常に効果的な数ショットとして機能することを示す。
自然言語文を論理形式に変換し、応答集合プログラムの入力として機能する。
本手法は,bAbI, StepGame, CLUTRR, gSCAN など,いくつかのベンチマークにおいて最先端性能を実現する。
論文 参考訳(メタデータ) (2023-07-15T03:29:59Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Crosslingual Generalization through Multitask Finetuning [80.8822603322471]
マルチタスク誘導ファインタニング(MTF)は、大きな言語モデルがゼロショット設定で新しいタスクに一般化するのに役立つことが示されている。
MTFを事前訓練された多言語BLOOMおよびmT5モデルファミリーに適用し、BLOOMZおよびmT0と呼ばれる微調整された変種を生成する。
英語のプロンプトを用いた英語タスクにおける多言語多言語モデルの微調整により、非英語言語へのタスク一般化が可能となる。
論文 参考訳(メタデータ) (2022-11-03T13:19:32Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Universal Natural Language Processing with Limited Annotations: Try
Few-shot Textual Entailment as a Start [125.23550801424328]
Universal Few-shot Textual Entailment (UFO-Entail)
universal Few-shot Textual Entailment (UFO-Entail)を紹介する。
我々は、このフレームワークにより、事前訓練されたエンターテイメントモデルが、数ショット設定で新しいエンターテイメントドメインでうまく機能できることを実証する。
論文 参考訳(メタデータ) (2020-10-06T09:50:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。