論文の概要: Web-based Application for Detecting Indonesian Clickbait Headlines using
IndoBERT
- arxiv url: http://arxiv.org/abs/2102.10601v1
- Date: Sun, 21 Feb 2021 13:28:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-23 15:23:14.416219
- Title: Web-based Application for Detecting Indonesian Clickbait Headlines using
IndoBERT
- Title(参考訳): IndoBERTを用いたインドネシアのクリックベイト見出し検出のためのWebベースアプリケーション
- Authors: Muhammad Noor Fakhruzzaman, Sie Wildan Gunawan
- Abstract要約: この研究では、クラウドサーバー上でモデルをトレーニングするために必要なコンピューティングリソースをオフロードし、クライアント側アプリケーションはAPIにリクエストを送信するだけで、クラウドサーバーは残りの処理を行います。
アプリケーションの使用状況が議論され、平均ROC-BERTの89%のパフォーマンスで一般公開されています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With increasing usage of clickbaits in Indonesian Online News, newsworthy
articles sometimes get buried among clickbaity news. A reliable and lightweight
tool is needed to detect such clickbaits on-the-go. Leveraging state-of-the-art
natural language processing model BERT, a RESTful API based application is
developed. This study offloaded the computing resources needed to train the
model on the cloud server, while the client-side application only needs to send
a request to the API and the cloud server will handle the rest. This study
proposed the design and developed a web-based application to detect clickbait
in Indonesian using IndoBERT as a language model. The application usage is
discussed and available for public use with a performance of mean ROC-AUC of
89%.
- Abstract(参考訳): インドネシアのオンラインニュースでクリックベイトの使用が増加すると、ニュース価値の高い記事がクリックベイティニュースに埋もれてしまうことがあります。
このようなクリックベイトを検出するには、信頼性と軽量なツールが必要です。
最先端の自然言語処理モデルBERTを活用し、RESTful APIベースのアプリケーションを開発する。
この研究では、クラウドサーバー上でモデルをトレーニングするために必要なコンピューティングリソースをオフロードし、クライアント側アプリケーションはAPIにリクエストを送信するだけで、クラウドサーバーは残りの処理を行います。
IndoBERTを言語モデルとして,インドネシアのクリックベイトを検出するWebアプリケーションの設計と開発を行った。
アプリケーションの使用状況が議論され、平均ROC-AUCの89%のパフォーマンスで一般公開されています。
関連論文リスト
- COTS: Connected OpenAPI Test Synthesis for RESTful Applications [0.0]
OpenAPI仕様のための(i)ドメイン固有言語を導入し、(ii)方法論をサポートするツールを導入します。
私たちのツールはCOTSと呼ばれ、(ランダムに)モデルベースのテスト実行を生成し、ソフトウェア欠陥を報告します。
論文 参考訳(メタデータ) (2024-04-30T15:12:31Z) - Cache & Distil: Optimising API Calls to Large Language Models [82.32065572907125]
ジェネレーティブAIツールの大規模デプロイは、ユーザクエリをフルフィルするために、LLM(Large Language Model)に対する高価なAPI呼び出しに依存することが多い。
これらの呼び出しの頻度を縮めるために、より小さな言語モデル(学生)を用いることができる。
この学生は、ユーザー要求の増加に独立して対処する能力が徐々に向上する。
論文 参考訳(メタデータ) (2023-10-20T15:01:55Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - Study of Encoder-Decoder Architectures for Code-Mix Search Query
Translation [0.0]
私たちが受け取るクエリの多くはコードミックスであり、特にHinglishは英語(ラテン語)スクリプトで書かれた1つ以上のヒンディー語のクエリである。
本稿では,これらのクエリをユーザが検索できるように,コードミックスクエリ変換のためのトランスフォーマーベースのアプローチを提案する。
モデルは現在、アプリとウェブサイトで公開されており、数百万のクエリーを提供している。
論文 参考訳(メタデータ) (2022-08-07T12:59:50Z) - Transfer Learning for Mining Feature Requests and Bug Reports from
Tweets and App Store Reviews [4.446419663487345]
既存のアプローチでは、リコールと許容精度の高い機能要求やバグレポートの検出に失敗している。
我々は単言語と多言語の両方のBERTモデルを訓練し、その性能を最先端の手法と比較する。
論文 参考訳(メタデータ) (2021-08-02T06:51:13Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Clickbait Headline Detection in Indonesian News Sites using Multilingual
Bidirectional Encoder Representations from Transformers (M-BERT) [0.0]
埋め込み層として機能する事前学習言語モデルM−BERTを備えたニューラルネットワークと、100ノード隠蔽層とを組み合わせて、クリックベイト見出しを検出する。
トレーニングデータセットとして合計6632の見出しで、分類器は非常によく機能した。
インドネシア語テキスト分類タスクにおける多言語BERTの使用がテストされ、さらなる拡張が可能となった。
論文 参考訳(メタデータ) (2021-02-02T14:13:02Z) - InfoBERT: Improving Robustness of Language Models from An Information
Theoretic Perspective [84.78604733927887]
BERTのような大規模言語モデルは、幅広いNLPタスクで最先端のパフォーマンスを実現している。
近年の研究では、このようなBERTベースのモデルが、テキストの敵対的攻撃の脅威に直面していることが示されている。
本稿では,事前学習した言語モデルの堅牢な微調整のための新しい学習フレームワークであるInfoBERTを提案する。
論文 参考訳(メタデータ) (2020-10-05T20:49:26Z) - CodeBERT: A Pre-Trained Model for Programming and Natural Languages [117.34242908773061]
CodeBERTは、プログラミング言語(PL)とナット言語(NL)のための事前訓練されたモデルである。
我々はTransformerベースのニューラルアーキテクチャを用いたCodeBERTを開発した。
モデルパラメータの微調整による2つのNL-PLアプリケーション上でのCodeBERTの評価を行った。
論文 参考訳(メタデータ) (2020-02-19T13:09:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。