論文の概要: Octopus: A Multitask Model and Toolkit for Arabic Natural Language
Generation
- arxiv url: http://arxiv.org/abs/2310.16127v1
- Date: Tue, 24 Oct 2023 19:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 18:27:20.836594
- Title: Octopus: A Multitask Model and Toolkit for Arabic Natural Language
Generation
- Title(参考訳): octopus:アラビア語自然言語生成のためのマルチタスクモデルとツールキット
- Authors: AbdelRahim Elmadany, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed
- Abstract要約: 我々はアラビア文字からテキストへの変換モデル、すなわちAraT5v2を提案する。
我々の新しいモデルは、拡張シーケンス長2,048トークンを用いて、広範囲で多様なデータに基づいて体系的に訓練されている。
我々はさらに、Pythonベースのパッケージと8つのアラビア生成タスク用に調整されたコマンドラインツールキットであるOctopusを開発し、公開することで、作業を進めています。
- 参考スコア(独自算出の注目度): 23.672484682660595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding Arabic text and generating human-like responses is a
challenging endeavor. While many researchers have proposed models and solutions
for individual problems, there is an acute shortage of a comprehensive Arabic
natural language generation toolkit that is capable of handling a wide range of
tasks. In this work, we present a novel Arabic text-to-text Transformer model,
namely AraT5v2. Our new model is methodically trained on extensive and diverse
data, utilizing an extended sequence length of 2,048 tokens. We explore various
pretraining strategies including unsupervised, supervised, and joint
pertaining, under both single and multitask settings. Our models outperform
competitive baselines with large margins. We take our work one step further by
developing and publicly releasing Octopus, a Python-based package and
command-line toolkit tailored for eight Arabic generation tasks all exploiting
a single model. We release the models and the toolkit on our public repository.
- Abstract(参考訳): アラビア語のテキストを理解し、人間のような応答を生成することは、難しい取り組みだ。
多くの研究者が個々の問題に対するモデルと解決策を提案しているが、幅広いタスクを処理できる包括的なアラビア語自然言語生成ツールキットが急速に不足している。
本稿では,新しいアラビア語テキスト変換モデルarat5v2について述べる。
新しいモデルは,拡張シーケンス長2,048トークンを使用して,多種多様なデータに対して体系的に訓練されている。
我々は,シングルタスクとマルチタスクの両方の設定下で,教師なし,監督なし,共同学習を含む様々な事前学習戦略を検討する。
私たちのモデルは、大きなマージンで競争ベースラインを上回ります。
これはPythonベースのパッケージで、8つのアラビア生成タスク用に調整されたコマンドラインツールキットで、すべて1つのモデルを利用しています。
モデルとツールキットをパブリックリポジトリでリリースしています。
関連論文リスト
- Arcee's MergeKit: A Toolkit for Merging Large Language Models [0.6374098147778188]
MergeKitは、任意のハードウェア上でモデルを効率的にマージするためのフレームワークである。
これまで、何千ものモデルがオープンソースコミュニティによってマージされてきた。
論文 参考訳(メタデータ) (2024-03-20T02:38:01Z) - Walia-LLM: Enhancing Amharic-LLaMA by Integrating Task-Specific and Generative Datasets [2.8123257987021058]
タスク固有および生成データセットを統合することでLLaMA-2-Amharicモデルの強化に注力する。
我々はAmharic命令の微調整データセットとLLaMA-2-Amharicモデルをコンパイルする。
微調整されたモデルは、異なるNLPタスクで有望な結果を示す。
論文 参考訳(メタデータ) (2024-02-12T19:25:11Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model
Pretraining Research [140.6355066137106]
われわれは、Webコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多種に混ぜて構築した3兆の英語コーパスであるDolmaをリリースする。
本報告では、Dolmaの設計原則、構築の詳細、内容の要約を含む、Dolmaについて述べる。
Dolmaは、言語モデリングの科学を構築し研究するために設計された、最先端のオープン言語モデルとフレームワークであるOLMoのトレーニングに使用されている。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。
Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。
また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文 参考訳(メタデータ) (2023-09-28T17:07:49Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the
Wild [107.3667463295682]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Benchmarking Procedural Language Understanding for Low-Resource
Languages: A Case Study on Turkish [2.396465363376008]
トルコの手続き文書について事例研究を行う。
まず、トルコのwikiHowにおけるチュートリアルの数を2000から52,000に拡張し、自動翻訳ツールを使用します。
我々は、コーパス上のいくつかのダウンストリームタスクを生成する。例えば、アクションのリンク、ゴール推論、要約などである。
論文 参考訳(メタデータ) (2023-09-13T03:42:28Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。
我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文 参考訳(メタデータ) (2022-05-19T01:27:53Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。
当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。
テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文 参考訳(メタデータ) (2020-12-31T09:48:05Z) - ARBERT & MARBERT: Deep Bidirectional Transformers for Arabic [6.021269454707625]
ARBERTとMARBERTの2つの強力な双方向トランスベースのモデルを紹介し、既存のすべてのモデルに優れた性能を発揮します。
ArBenchは5つのタスク/タスククラスタを対象とした41のデータセットを使用して構築されている。
ArBenchで微調整を行うと、ARBERTとMARBERTは既存のモデルと比べて大きなマージンを持つ新しいSOTAを達成する。
論文 参考訳(メタデータ) (2020-12-27T06:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。