論文の概要: Text Classification for Azerbaijani Language Using Machine Learning and
Embedding
- arxiv url: http://arxiv.org/abs/1912.13362v1
- Date: Thu, 26 Dec 2019 08:38:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 07:50:47.103394
- Title: Text Classification for Azerbaijani Language Using Machine Learning and
Embedding
- Title(参考訳): 機械学習と埋め込みを用いたアゼルバイジャン語のテキスト分類
- Authors: Umid Suleymanov, Behnam Kiani Kalejahi, Elkhan Amrahov, Rashid
Badirkhanli
- Abstract要約: このシステムは、主にニュースフィードの分類に使用される。
このシステムは、製品レビューの感情分析にも使われている。
Naive Bayes、SVM、Decision Treesといった機械学習技術は、アゼルバイジャン語のテキスト分類問題を解決するために考案されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification systems will help to solve the text clustering problem in
the Azerbaijani language. There are some text-classification applications for
foreign languages, but we tried to build a newly developed system to solve this
problem for the Azerbaijani language. Firstly, we tried to find out potential
practice areas. The system will be useful in a lot of areas. It will be mostly
used in news feed categorization. News websites can automatically categorize
news into classes such as sports, business, education, science, etc. The system
is also used in sentiment analysis for product reviews. For example, the
company shares a photo of a new product on Facebook and the company receives a
thousand comments for new products. The systems classify the comments into
categories like positive or negative. The system can also be applied in
recommended systems, spam filtering, etc. Various machine learning techniques
such as Naive Bayes, SVM, Decision Trees have been devised to solve the text
classification problem in Azerbaijani language.
- Abstract(参考訳): テキスト分類システムは、アゼルバイジャン語のテキストクラスタリング問題を解決するのに役立つだろう。
外国語にはいくつかのテキスト分類アプリケーションがあるが、我々はアゼルバイジャン語でこの問題を解決するために新しく開発されたシステムを構築しようとした。
まず、潜在的な実践領域を見つけようとした。
このシステムは、多くの分野で役に立つだろう。
主にニュースフィードのカテゴリー化に使用される。
ニュースサイトは自動的にスポーツ、ビジネス、教育、科学などのクラスに分類することができる。
このシステムは製品レビューの感情分析にも使われている。
例えば、同社はfacebookで新製品の写真を共有し、新しいプロダクトに対して1000のコメントを受け取る。
システムはコメントを肯定的または否定的なカテゴリに分類する。
このシステムは、推奨システムやスパムフィルタリングなどにも適用できる。
アゼルバイジャン語のテキスト分類問題を解決するために,naive bayes, svm, decision treeなどの機械学習手法が考案されている。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - MENTOR: Multilingual tExt detectioN TOward leaRning by analogy [59.37382045577384]
本研究では,シーンイメージ内の視覚領域と見えない言語領域の両方を検出し,識別するフレームワークを提案する。
mentOR」は、ゼロショット学習と少数ショット学習の学習戦略を多言語シーンテキスト検出のために実現した最初の作品である。
論文 参考訳(メタデータ) (2024-03-12T03:35:17Z) - Like a Good Nearest Neighbor: Practical Content Moderation and Text
Classification [66.02091763340094]
LaGoNN(Good Nearest Neighbor)は、学習可能なパラメータを導入することなく、隣人の情報で入力テキストを変更するSetFitの変更である。
LaGoNNは望ましくないコンテンツやテキスト分類のフラグ付けに有効であり、SetFitのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-02-17T15:43:29Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Development of Fake News Model using Machine Learning through Natural
Language Processing [0.7120858995754653]
機械学習アルゴリズムとフェイクニュースの識別に使用しています。
フェイクニュース検出では、単純な分類が完全に正しいわけではない。
機械学習とテキストベースの処理を統合することで、偽ニュースを検出することができる。
論文 参考訳(メタデータ) (2022-01-19T09:26:15Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - An Amharic News Text classification Dataset [0.0]
6つのクラスに分類された50万以上のニュース記事からなるAmharicテキスト分類データセットの導入を目指しています。
このデータセットは、研究とより良いパフォーマンス実験を促進するための簡単なベースラインパフォーマンスで利用可能になります。
論文 参考訳(メタデータ) (2021-03-10T16:36:39Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z) - Upgrading the Newsroom: An Automated Image Selection System for News
Articles [6.901494425127736]
ニュース記事に適した画像を選択する際に,写真編集者を支援する自動画像選択システムを提案する。
本システムは,ニュース記事から抽出した複数のテキストソースを融合し,多言語入力を受け入れる。
マルチモーダルな多言語ニュース記事を含む大規模テキスト画像データベース上で,本システムを広範囲に実験した。
論文 参考訳(メタデータ) (2020-04-23T20:29:26Z) - Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。
本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。
また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文 参考訳(メタデータ) (2020-01-19T09:29:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。