論文の概要: TurkishBERTweet: Fast and Reliable Large Language Model for Social Media
Analysis
- arxiv url: http://arxiv.org/abs/2311.18063v1
- Date: Wed, 29 Nov 2023 20:22:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 18:49:30.381092
- Title: TurkishBERTweet: Fast and Reliable Large Language Model for Social Media
Analysis
- Title(参考訳): TurkBERTweet: ソーシャルメディア分析のための高速で信頼性の高い大規模言語モデル
- Authors: Ali Najafi and Onur Varol
- Abstract要約: 約9億のツイートを使って構築されたトルコのソーシャルメディアのための、最初の大規模な事前訓練された言語モデルであるTurrkBERTweetを紹介します。
このモデルは、BERTモデルと同じアーキテクチャで、入力長が小さく、BERTurkより軽量である。
TurkBERTweetは、汎用性において他の選択肢よりも優れており、推論時間が低いことは、大規模なデータセットを処理する上で大きな利点をもたらすことを実証する。
- 参考スコア(独自算出の注目度): 4.195270491854775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Turkish is one of the most popular languages in the world. Wide us of this
language on social media platforms such as Twitter, Instagram, or Tiktok and
strategic position of the country in the world politics makes it appealing for
the social network researchers and industry. To address this need, we introduce
TurkishBERTweet, the first large scale pre-trained language model for Turkish
social media built using almost 900 million tweets. The model shares the same
architecture as base BERT model with smaller input length, making
TurkishBERTweet lighter than BERTurk and can have significantly lower inference
time. We trained our model using the same approach for RoBERTa model and
evaluated on two text classification tasks: Sentiment Classification and Hate
Speech Detection. We demonstrate that TurkishBERTweet outperforms the other
available alternatives on generalizability and its lower inference time gives
significant advantage to process large-scale datasets. We also compared our
models with the commercial OpenAI solutions in terms of cost and performance to
demonstrate TurkishBERTweet is scalable and cost-effective solution. As part of
our research, we released TurkishBERTweet and fine-tuned LoRA adapters for the
mentioned tasks under the MIT License to facilitate future research and
applications on Turkish social media. Our TurkishBERTweet model is available
at: https://github.com/ViralLab/TurkishBERTweet
- Abstract(参考訳): トルコ語は世界で最も人気のある言語の一つである。
Twitter、Instagram、Tiktokなどのソーシャルメディアプラットフォームでこの言葉を広く利用し、世界の政治における国の戦略的地位は、ソーシャルネットワークの研究者や業界にアピールしている。
このニーズに対処するために、トルコのソーシャルメディア向けに9億近いツイートを使って構築された最初の大規模な事前学習言語モデルであるturkishbertweetを紹介します。
このモデルは、BERTモデルと同じアーキテクチャで、入力長が小さく、BERTurkよりもTurbaBERTweetが軽くなり、推論時間が大幅に短縮される。
我々はRoBERTaモデルと同じアプローチでモデルを訓練し、感性分類とヘイトスピーチ検出という2つのテキスト分類タスクで評価した。
TurkBERTweetは、汎用性において他の選択肢よりも優れており、推論時間が低く、大規模なデータセットを処理する上で大きな利点があることを示す。
TurkBERTweetがスケーラブルで費用効率の良いソリューションであることを実証するために、当社のモデルを、コストとパフォーマンスの観点から、商用のOpenAIソリューションと比較しました。
我々の研究の一環として、我々は、トルコのソーシャルメディアにおける将来の研究と応用を促進するために、MITライセンスの下で述べたタスクのために、TurrkBERTweetとLoRAアダプタを微調整した。
TurkeyBERTweetモデルは、https://github.com/ViralLab/TurkishBERTweetで利用可能です。
関連論文リスト
- SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - Introducing cosmosGPT: Monolingual Training for Turkish Language Models [0.0]
本研究では、この代替手法を用いて作成した宇宙GPTモデルについて紹介する。
次に、ユーザ要求を満たすための基本言語モデルのための新しいファインチューンデータセットと、トルコ語モデルの能力を測定するための新しい評価データセットを導入する。
その結果、モノリンガルコーパスで構築した言語モデルは、他に比べて約10倍小さいにもかかわらず、有望な性能を示した。
論文 参考訳(メタデータ) (2024-04-26T11:34:11Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - RoBERTweet: A BERT Language Model for Romanian Tweets [0.15293427903448023]
この記事ではルーマニアのツイートでトレーニングされた最初のTransformerアーキテクチャであるRoBERTweetを紹介します。
モデルの事前訓練に使用されるコーパスは、ルーマニアのNLPコミュニティの斬新さを表している。
実験の結果,RoBERTweet は3つの NLP タスクにおいて,これまでの汎用言語モデルと多言語言語モデルより優れていることがわかった。
論文 参考訳(メタデータ) (2023-06-11T06:11:56Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - HuBERT-TR: Reviving Turkish Automatic Speech Recognition with
Self-supervised Speech Representation Learning [10.378738776547815]
本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。
HuBERT-TRは、いくつかのトルコのASRデータセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2022-10-13T19:46:39Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - NewsBERT: Distilling Pre-trained Language Model for Intelligent News
Application [56.1830016521422]
本稿では,学習済み言語モデルを抽出し,効率的なニュースインテリジェンスを実現するNewsBERTを提案する。
そこで本研究では,教師と学生の共学モデルを協調的に学習するための,教師と学生の共学学習・蒸留の枠組みを設計する。
実験では,NewsBERTはより小さなモデルで,様々なインテリジェントなニュースアプリケーションのモデル性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2021-02-09T15:41:12Z) - TweetBERT: A Pretrained Language Representation Model for Twitter Text
Analysis [0.0]
我々は、何百万ものツイートで事前訓練されたドメイン固有言語プレゼンテーションモデルである2つのTweetBERTモデルを紹介した。
TweetBERTモデルは、Twitterのテキストマイニングタスクにおける従来のBERTモデルよりも、各Twitterデータセットで7%以上優れています。
論文 参考訳(メタデータ) (2020-10-17T00:45:02Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。