論文の概要: RoBERTurk: Adjusting RoBERTa for Turkish
- arxiv url: http://arxiv.org/abs/2401.03515v1
- Date: Sun, 7 Jan 2024 15:13:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-09 18:25:06.433856
- Title: RoBERTurk: Adjusting RoBERTa for Turkish
- Title(参考訳): RoBERTurk:トルコでRoBERTaを調整
- Authors: Nuri Tas
- Abstract要約: BPEトークンを用いたトルコのコーパス上でRoBERTaをプリトレーニングする。
我々のモデルは、POSタスクのBOUNデータセットのBERTurkファミリーモデルよりも優れており、同じタスクのIMSTデータセットの低性能化と、NERタスクのXTREMEデータセットのトルコ分割における競合スコアの達成を実現している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We pretrain RoBERTa on a Turkish corpora using BPE tokenizer. Our model
outperforms BERTurk family models on the BOUN dataset for the POS task while
resulting in underperformance on the IMST dataset for the same task and
achieving competitive scores on the Turkish split of the XTREME dataset for the
NER task - all while being pretrained on smaller data than its competitors. We
release our pretrained model and tokenizer.
- Abstract(参考訳): BPEトークンを用いたトルコのコーパス上でRoBERTaをプリトレーニングする。
我々のモデルは、POSタスクのBOUNデータセット上のBERTurkファミリーモデルよりも優れており、同じタスクのIMSTデータセットではパフォーマンスが劣り、NERタスクのトルコ分割によるXTREMEデータセットの競合スコアが得られます。
トレーニング済みのモデルとトークンをリリースします。
関連論文リスト
- Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi [0.7874708385247353]
この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。
機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。
我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
論文 参考訳(メタデータ) (2022-11-21T05:15:48Z) - HuBERT-TR: Reviving Turkish Automatic Speech Recognition with
Self-supervised Speech Representation Learning [10.378738776547815]
本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。
HuBERT-TRは、いくつかのトルコのASRデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-10-13T19:46:39Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - Towards Efficient NLP: A Standard Evaluation and A Strong Baseline [55.29756535335831]
本研究は, ELUE (Efficient Language Understanding Evaluation) と標準評価, 効率的なNLPモデルのための公開リーダボードを提案する。
ベンチマークとともに、強いベースラインであるElasticBERTの事前トレーニングとリリースも行います。
論文 参考訳(メタデータ) (2021-10-13T21:17:15Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - An Empirical Study of Using Pre-trained BERT Models for Vietnamese
Relation Extraction Task at VLSP 2020 [0.0]
R-BERT モデルと BERT モデルという,最先端の BERT モデルを適用する。
各モデルについて、FPTAI/vibertとNlpHUST/vibert4newsの2つの事前学習BERTモデルを比較した。
NlpHUST/vibert4news モデルはベトナム関係抽出作業において FPTAI/vibert よりも優れていた。
論文 参考訳(メタデータ) (2020-12-18T14:53:49Z) - GottBERT: a pure German Language Model [0.0]
ドイツ語の単一言語RoBERTaモデルはまだ公開されておらず、本書で紹介する(GottBERT)。
評価では、名前付きエンティティ認識(NER)タスクのConll 2003 と GermEval 2014 と、GermEval 2018 (微細で粗い) と GNAD のテキスト分類タスクと、既存のドイツの単一言語 BERT モデルと2つの多言語タスクのパフォーマンスを比較した。
GottBERTはRoBERTa BASEアーキテクチャを使って256コアのTPUポッドで事前訓練に成功した。
論文 参考訳(メタデータ) (2020-12-03T17:45:03Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z) - Application of Pre-training Models in Named Entity Recognition [5.285449619478964]
本稿では,BERT,ERNIE,ERNIE2.0-tiny,RoBERTaの4つの事前学習モデルのアーキテクチャと事前学習タスクを紹介する。
我々はこれらの事前学習モデルをNERタスクに微調整して適用し、異なるモデルアーキテクチャと事前学習タスクがNERタスクに与える影響を比較した。
実験の結果,RoBERTaはMSRA-2006データセット上で最先端の結果を得た。
論文 参考訳(メタデータ) (2020-02-09T08:18:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。