Fugu-MT 論文翻訳(概要): Octopus: A Multitask Model and Toolkit for Arabic Natural Language Generation

論文の概要: Octopus: A Multitask Model and Toolkit for Arabic Natural Language Generation

arxiv url: http://arxiv.org/abs/2310.16127v1
Date: Tue, 24 Oct 2023 19:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-26 18:27:20.836594
Title: Octopus: A Multitask Model and Toolkit for Arabic Natural Language Generation
Title（参考訳）: octopus:アラビア語自然言語生成のためのマルチタスクモデルとツールキット
Authors: AbdelRahim Elmadany, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed
Abstract要約: 我々はアラビア文字からテキストへの変換モデル、すなわちAraT5v2を提案する。我々の新しいモデルは、拡張シーケンス長2,048トークンを用いて、広範囲で多様なデータに基づいて体系的に訓練されている。我々はさらに、Pythonベースのパッケージと8つのアラビア生成タスク用に調整されたコマンドラインツールキットであるOctopusを開発し、公開することで、作業を進めています。
参考スコア（独自算出の注目度）: 23.672484682660595
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding Arabic text and generating human-like responses is a challenging endeavor. While many researchers have proposed models and solutions for individual problems, there is an acute shortage of a comprehensive Arabic natural language generation toolkit that is capable of handling a wide range of tasks. In this work, we present a novel Arabic text-to-text Transformer model, namely AraT5v2. Our new model is methodically trained on extensive and diverse data, utilizing an extended sequence length of 2,048 tokens. We explore various pretraining strategies including unsupervised, supervised, and joint pertaining, under both single and multitask settings. Our models outperform competitive baselines with large margins. We take our work one step further by developing and publicly releasing Octopus, a Python-based package and command-line toolkit tailored for eight Arabic generation tasks all exploiting a single model. We release the models and the toolkit on our public repository.
Abstract（参考訳）: アラビア語のテキストを理解し、人間のような応答を生成することは、難しい取り組みだ。多くの研究者が個々の問題に対するモデルと解決策を提案しているが、幅広いタスクを処理できる包括的なアラビア語自然言語生成ツールキットが急速に不足している。本稿では,新しいアラビア語テキスト変換モデルarat5v2について述べる。新しいモデルは,拡張シーケンス長2,048トークンを使用して,多種多様なデータに対して体系的に訓練されている。我々は,シングルタスクとマルチタスクの両方の設定下で,教師なし,監督なし,共同学習を含む様々な事前学習戦略を検討する。私たちのモデルは、大きなマージンで競争ベースラインを上回ります。これはPythonベースのパッケージで、8つのアラビア生成タスク用に調整されたコマンドラインツールキットで、すべて1つのモデルを利用しています。モデルとツールキットをパブリックリポジトリでリリースしています。

関連論文リスト

Tevatron 2.0: Unified Document Retrieval Toolkit across Scale, Language, and Modality [74.59049806800176]
このデモペーパーでは、Tevatronツールキットの重要な特徴、学界と産業の橋渡しについて取り上げている。強い多言語・多モーダルな有効性を実現するための密集型検索器について紹介する。私たちはOmniEmbedもリリースしています。私たちの知る限り、テキスト、画像ドキュメント、ビデオ、オーディオ検索を統一する最初の埋め込みモデルです。
論文参考訳（メタデータ） (2025-05-05T08:52:49Z)
Resource-Aware Arabic LLM Creation: Model Adaptation, Integration, and Multi-Domain Testing [0.0]
本稿では,4GB VRAMしか持たないシステム上で,量子化低ランク適応(QLoRA)を用いたアラビア語処理のためのQwen2-1.5Bモデルを微調整する新しい手法を提案する。 Bactrian、OpenAssistant、Wikipedia Arabic corporaなどの多様なデータセットを使用して、この大きな言語モデルをアラビア語領域に適応する過程を詳述する。 1万以上のトレーニングステップの実験結果は、最終的な損失が0.1083に収束するなど、大幅なパフォーマンス向上を示している。
論文参考訳（メタデータ） (2024-12-23T13:08:48Z)
Swan and ArabicMTEB: Dialect-Aware, Arabic-Centric, Cross-Lingual, and Cross-Cultural Embedding Models and Benchmarks [17.5987429821102]
スワン(Swan)は、アラビア語を中心にした埋め込みモデルのファミリーである。 2つの変種: Swan-SmallはArBERTv2をベースとしており、Swan-Largeはアラビア語で事前訓練された大言語モデルであるArMistralをベースとしている。
論文参考訳（メタデータ） (2024-11-02T09:39:49Z)
Towards Autonomous Agents: Adaptive-planning, Reasoning, and Acting in Language Models [3.8936716676293917]
本稿では,自律型意思決定言語エージェント構築のためのコンテキスト内学習アルゴリズムを提案する。選択した言語エージェントは,テキストベースのゲーム環境においてタスクを解く能力を示す。
論文参考訳（メタデータ） (2024-08-12T19:18:05Z)
Arabic Automatic Story Generation with Large Language Models [15.000055598698438]
我々は,大規模言語モデル(LLM)からストーリを生成するタスクに注力する。トレーニングでは、機械翻訳(MT)とGPT-4を使って獲得したストーリーを使用します。 GPT-41データには、アラビア語の文脈に適したデータを生成するためのプロンプトが導入された。
論文参考訳（メタデータ） (2024-07-10T11:26:10Z)
GemmAr: Enhancing LLMs Through Arabic Instruction-Tuning [0.0]
InstAr-500kは、コンテンツの生成と収集によって生成された新しいアラビア文字の命令データセットである。我々は,オープンソースのGemma-7Bモデルを下流タスクで微調整し,その機能を改善することにより,このデータセットを評価する。複数の評価結果に基づき, アラビアNLPベンチマークにおいて, 微調整モデルにより優れた性能が得られた。
論文参考訳（メタデータ） (2024-07-02T10:43:49Z)
Qwen Technical Report [132.54304067403922]
当社の大規模言語モデルシリーズの最初のインストールであるQwenを紹介します。 Qwenはトレーニング済みの言語モデルの基本であり、Qwen-Chatは人間のアライメント技術で微調整されたチャットモデルである。また、コーディング特化モデルであるCode-QwenとCode-Qwen-Chatも開発し、数学に焦点を当てたMath-Qwen-Chatも開発しました。
論文参考訳（メタデータ） (2023-09-28T17:07:49Z)
TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文参考訳（メタデータ） (2023-09-14T15:34:01Z)
MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文参考訳（メタデータ） (2023-03-29T16:42:30Z)
Toolformer: Language Models Can Teach Themselves to Use Tools [62.04867424598204]
言語モデル(LM)は、特に大規模において、いくつかの例やテキスト命令から新しいタスクを解く素晴らしい能力を示す。 LMは、シンプルなAPIを通じて外部ツールの使用を自覚し、両方の世界のベストを達成できることを示します。 Toolformerは、どのAPIを呼び出すか、いつ呼び出すか、どの引数を渡すか、結果を将来のトークン予測に最もうまく組み込む方法を訓練したモデルです。
論文参考訳（メタデータ） (2023-02-09T16:49:57Z)
Twist Decoding: Diverse Generators Guide Each Other [116.20780037268801]
様々なモデルの恩恵を受けながらテキストを生成するシンプルで一般的な推論アルゴリズムであるTwist decodingを導入する。我々の方法は、語彙、トークン化、あるいは生成順序が共有されていると仮定しない。
論文参考訳（メタデータ） (2022-05-19T01:27:53Z)
Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文参考訳（メタデータ） (2021-10-15T17:08:57Z)
AraGPT2: Pre-Trained Transformer for Arabic Language Generation [0.0]
我々は,インターネットテキストとニュース記事の巨大なアラビア語コーパスをスクラッチから学習した,最初の先進アラビア語言語生成モデルであるalagpt2を開発した。当社の最大のモデルであるAraGPT2-megaは、1.46億のパラメータを持ち、アラビア言語モデルとして最大です。テキスト生成では、wikipediaの記事に29.8のパープレキシティを達成する。
論文参考訳（メタデータ） (2020-12-31T09:48:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。