論文の概要: Spivavtor: An Instruction Tuned Ukrainian Text Editing Model
- arxiv url: http://arxiv.org/abs/2404.18880v1
- Date: Mon, 29 Apr 2024 17:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 12:48:52.957109
- Title: Spivavtor: An Instruction Tuned Ukrainian Text Editing Model
- Title(参考訳): Spivavtor:ウクライナのテキスト編集モデル
- Authors: Aman Saini, Artem Chernodub, Vipul Raheja, Vivek Kulkarni,
- Abstract要約: ウクライナ語に焦点をあてたテキスト編集のためのデータセットと命令調整モデルであるSpivavtorを紹介した。
ウクライナの文法的誤り訂正 (GEC) やテキスト単純化, コヒーレンス, パラフレージングなど, 様々なテキスト編集タスクにおいて, Spivavtor の評価を行った。
- 参考スコア(独自算出の注目度): 5.87621096466485
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Spivavtor, a dataset, and instruction-tuned models for text editing focused on the Ukrainian language. Spivavtor is the Ukrainian-focused adaptation of the English-only CoEdIT model. Similar to CoEdIT, Spivavtor performs text editing tasks by following instructions in Ukrainian. This paper describes the details of the Spivavtor-Instruct dataset and Spivavtor models. We evaluate Spivavtor on a variety of text editing tasks in Ukrainian, such as Grammatical Error Correction (GEC), Text Simplification, Coherence, and Paraphrasing, and demonstrate its superior performance on all of them. We publicly release our best-performing models and data as resources to the community to advance further research in this space.
- Abstract(参考訳): ウクライナ語に焦点をあてたテキスト編集のためのデータセットであるSpivavtorを紹介した。
Spivavtorは、英語のみのCoEdITモデルのウクライナ版である。
CoEdITと同様に、Spivavtorはウクライナ語で指示に従うことによってテキスト編集タスクを実行する。
本稿では,Spivavtor-InstructデータセットとSpivavtorモデルの詳細について述べる。
ウクライナの文法的誤り訂正 (GEC) やテキスト単純化, コヒーレンス, パラフレージングなど, 様々なテキスト編集タスクにおいて, Spivavtor の評価を行い, その優れた性能を示した。
私たちは、この分野のさらなる研究を進めるために、コミュニティのリソースとして、最高のパフォーマンスのモデルとデータを公開します。
関連論文リスト
- RWKV-CLIP: A Robust Vision-Language Representation Learner [31.501759213619646]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に改善した。
本稿では,Large Language Models(LLM)を利用して,Webベースのテキスト,合成キャプション,検出タグからコンテンツを合成・洗練する多種多様な記述生成フレームワークを提案する。
RWKV-CLIPは,変換器の効果的な並列学習とRNNの効率的な推論を組み合わせた,最初のRWKV駆動型視覚言語表現学習モデルである。
論文 参考訳(メタデータ) (2024-06-11T06:10:46Z) - A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Setting up the Data Printer with Improved English to Ukrainian Machine Translation [0.0]
ウクライナ語と英語の文の3M対のノイズの多い並列データセットを用いた翻訳システムを構築するためのレシピを提案する。
我々のデコーダのみのモデルであるDragomanは、FLORESデベロップメントセットのアーティファクトエンコーダ-デコーダモデルの性能を上回りました。
論文 参考訳(メタデータ) (2024-04-23T16:34:34Z) - mEdIT: Multilingual Text Editing via Instruction Tuning [8.354138611160117]
mEdITは、執筆支援のための最先端のテキスト編集モデルである。
我々は、公開されている複数人の注釈付きテキスト編集データセットからデータをキュレートしてmEdITを構築する。
我々は,mEdITが多言語ベースライン上の新しい言語に効果的に一般化できることを示す。
論文 参考訳(メタデータ) (2024-02-26T10:33:36Z) - Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research [139.69207791947738]
ドルマ (Dolma) は、ウェブコンテンツ、科学論文、コード、パブリックドメインの書籍、ソーシャルメディア、百科事典の素材を多用した3トリルの英語コーパスである。
我々はDolmaの設計原則、その構築の詳細、内容の要約を含む、Dolmaを文書化します。
我々は、重要なデータキュレーションの実践について学んだことを共有するために、Dolmaの中間状態の分析と実験結果を示す。
論文 参考訳(メタデータ) (2024-01-31T20:29:50Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Evaluation of Transfer Learning for Polish with a Text-to-Text Model [54.81823151748415]
ポーランド語におけるテキスト・テキスト・モデルの質を評価するための新しいベンチマークを導入する。
KLEJベンチマークはテキスト・トゥ・テキスト、en-pl翻訳、要約、質問応答に適応している。
本稿では,ポーランド語のための汎用テキスト・テキスト・ツー・テキスト・モデルであるplT5について述べる。
論文 参考訳(メタデータ) (2022-05-18T09:17:14Z) - TunBERT: Pretrained Contextualized Text Representation for Tunisian
Dialect [0.0]
表現不足言語に対するモノリンガルトランスフォーマーに基づく言語モデルのトレーニングの実現可能性について検討する。
構造化データの代わりにノイズの多いWebクローリングデータを使用することは、そのような非標準言語にとってより便利であることを示す。
我々の最高のパフォーマンスTunBERTモデルは、下流の3つのタスクすべてにおいて最先端のタスクに到達または改善します。
論文 参考訳(メタデータ) (2021-11-25T15:49:50Z) - Pre-training Language Model Incorporating Domain-specific Heterogeneous Knowledge into A Unified Representation [49.89831914386982]
本研究では, 構造化されていないテキスト, 半構造化されたテキスト, 十分に構造化されたテキストを含む, あらゆる形式のテキストに対して, 統一された事前学習言語モデル (PLM) を提案する。
提案手法は,データの1/4のみを用いて,プレーンテキストの事前学習に優れる。
論文 参考訳(メタデータ) (2021-09-02T16:05:24Z) - Lite Training Strategies for Portuguese-English and English-Portuguese
Translation [67.4894325619275]
ポルトガル語・英語・ポルトガル語の翻訳タスクにおいて,T5などの事前学習モデルの使用について検討する。
本稿では,ポルトガル語の文字,例えばダイアレーシス,急性アクセント,墓のアクセントを表すために,英語のトークン化器の適応を提案する。
以上の結果から,本モデルは最新モデルと競合する性能を示しながら,控えめなハードウェアでトレーニングを行った。
論文 参考訳(メタデータ) (2020-08-20T04:31:03Z) - Dataset for Automatic Summarization of Russian News [0.0]
ロシアのニュースを要約する最初のデータセットであるGazetaを紹介します。
このデータセットがロシア語のテキスト要約手法の有効なタスクであることを実証する。
論文 参考訳(メタデータ) (2020-06-19T10:44:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。