論文の概要: Cooking Is All About People: Comment Classification On Cookery Channels
Using BERT and Classification Models (Malayalam-English Mix-Code)
- arxiv url: http://arxiv.org/abs/2007.04249v3
- Date: Wed, 22 Jul 2020 08:40:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 02:12:06.043064
- Title: Cooking Is All About People: Comment Classification On Cookery Channels
Using BERT and Classification Models (Malayalam-English Mix-Code)
- Title(参考訳): 料理は人に関するものである:bertと分類モデル(malayalam-english mix-code)を用いた料理チャネルのコメント分類
- Authors: Subramaniam Kazhuparambil (1) and Abhishek Kaushik (1 and 2) ((1)
Dublin Business School, (2) Dublin City University)
- Abstract要約: 我々は、英語とマラヤラムの異なる組み合わせの混合であるコメントを分類するために、トップパフォーマンスの分類モデルを評価した。
以上の結果から,K-Nearest Neighbors(KNN),SVM(Support Vector Machine),ランダムフォレスト(Random Forest),決定木(Decision Trees)がコメント分類において同様の精度を提供することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The scope of a lucrative career promoted by Google through its video
distribution platform YouTube has attracted a large number of users to become
content creators. An important aspect of this line of work is the feedback
received in the form of comments which show how well the content is being
received by the audience. However, volume of comments coupled with spam and
limited tools for comment classification makes it virtually impossible for a
creator to go through each and every comment and gather constructive feedback.
Automatic classification of comments is a challenge even for established
classification models, since comments are often of variable lengths riddled
with slang, symbols and abbreviations. This is a greater challenge where
comments are multilingual as the messages are often rife with the respective
vernacular. In this work, we have evaluated top-performing classification
models for classifying comments which are a mix of different combinations of
English and Malayalam (only English, only Malayalam and Mix of English and
Malayalam). The statistical analysis of results indicates that Multinomial
Naive Bayes, K-Nearest Neighbors (KNN), Support Vector Machine (SVM), Random
Forest and Decision Trees offer similar level of accuracy in comment
classification. Further, we have also evaluated 3 multilingual transformer
based language models (BERT, DISTILBERT and XLM) and compared their performance
to the traditional machine learning classification techniques. XLM was the
top-performing BERT model with an accuracy of 67.31. Random Forest with Term
Frequency Vectorizer was the best performing model out of all the traditional
classification models with an accuracy of 63.59.
- Abstract(参考訳): ビデオ配信プラットフォームYouTubeを通じてGoogleが推進する収益性のあるキャリアの範囲は、多くのユーザーを惹きつけ、コンテンツクリエーターとなった。
この一連の作業の重要な側面は、コメント形式で受信されたフィードバックであり、聴衆がコンテンツがどれほどうまく受け取られているかを示している。
しかし、スパムとコメント分類のための限られたツールが組み合わされたコメントの量は、クリエイターが各コメントを通り抜けて建設的なフィードバックを集めることは事実上不可能である。
コメントの自動分類は確立された分類モデルでも困難である。なぜなら、コメントはスラング、シンボル、略語で囲まれた可変長を持つことが多いからである。
これは、メッセージがそれぞれの頂点と重複することが多いため、コメントが多言語であるという大きな課題である。
本研究では,英語とマラヤラムの異なる組み合わせ(英語のみ,マラヤラムのみ,および英語とマラヤラムの混合)を混合したコメントを分類するためのトップパフォーマンス分類モデルを評価した。
結果の統計的分析から,k-nearest neighbors (knn), support vector machine (svm), random forest, decision treesは,コメント分類において類似した精度を示している。
さらに,3つの多言語変換言語モデル (BERT, DISTILBERT, XLM) を評価し,その性能を従来の機械学習分類手法と比較した。
XLMは最高性能のBERTモデルであり、精度は67.31である。
Random Forest with Term Frequency Vectorizerは63.59の精度で従来の分類モデルの中で最高の性能を発揮した。
関連論文リスト
- Large Language Models For Text Classification: Case Study And Comprehensive Review [0.3428444467046467]
各種言語モデル(LLM)の性能を,最先端のディープラーニングモデルや機械学習モデルと比較して評価する。
本研究は,提案手法に基づくモデル応答の有意な変動を明らかにした。
論文 参考訳(メタデータ) (2025-01-14T22:02:38Z) - Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models [0.9012198585960441]
本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
論文 参考訳(メタデータ) (2023-08-20T21:30:34Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Quark: Controllable Text Generation with Reinforced Unlearning [68.07749519374089]
大規模言語モデルは、しばしばユーザの期待に合わない振る舞いを学ぶ。
本稿では,(不必要な)特性を定量化する報酬関数を最適化するアルゴリズムQuarkを紹介する。
未学習の毒性、ネガティブな感情、反復について、我々の実験はQuarkが強いベースラインと最先端の強化学習法の両方より優れていることを示している。
論文 参考訳(メタデータ) (2022-05-26T21:11:51Z) - Classifying YouTube Comments Based on Sentiment and Type of Sentence [0.0]
我々は、よく知られた統計測度と機械学習モデルを用いて、YouTubeコメントからのテキスト抽出と分類の課題に対処する。
その結果,従来の手法を取り入れた手法が,コンテンツ制作者のチャンネルにおける視聴者エンゲージメント向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-10-31T18:08:10Z) - Transfer Learning for Mining Feature Requests and Bug Reports from
Tweets and App Store Reviews [4.446419663487345]
既存のアプローチでは、リコールと許容精度の高い機能要求やバグレポートの検出に失敗している。
我々は単言語と多言語の両方のBERTモデルを訓練し、その性能を最先端の手法と比較する。
論文 参考訳(メタデータ) (2021-08-02T06:51:13Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。