論文の概要: Feature Selection on Noisy Twitter Short Text Messages for Language
Identification
- arxiv url: http://arxiv.org/abs/2007.05727v1
- Date: Sat, 11 Jul 2020 09:22:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 12:58:02.046064
- Title: Feature Selection on Noisy Twitter Short Text Messages for Language
Identification
- Title(参考訳): 言語識別のためのノイズの多いTwitter短文メッセージの特徴選択
- Authors: Mohd Zeeshan Ansari, Tanvir Ahmad and Ana Fatima
- Abstract要約: アルゴリズムの効果を分析するために,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用した。
この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of written language identification involves typically the detection
of the languages present in a sample of text. Moreover, a sequence of text may
not belong to a single inherent language but also may be mixture of text
written in multiple languages. This kind of text is generated in large volumes
from social media platforms due to its flexible and user friendly environment.
Such text contains very large number of features which are essential for
development of statistical, probabilistic as well as other kinds of language
models. The large number of features have rich as well as irrelevant and
redundant features which have diverse effect over the performance of the
learning model. Therefore, feature selection methods are significant in
choosing feature that are most relevant for an efficient model. In this
article, we basically consider the Hindi-English language identification task
as Hindi and English are often two most widely spoken languages of India. We
apply different feature selection algorithms across various learning algorithms
in order to analyze the effect of the algorithm as well as the number of
features on the performance of the task. The methodology focuses on the word
level language identification using a novel dataset of 6903 tweets extracted
from Twitter. Various n-gram profiles are examined with different feature
selection algorithms over many classifiers. Finally, an exhaustive comparative
analysis is put forward with respect to the overall experiments conducted for
the task.
- Abstract(参考訳): 言語識別のタスクは典型的には、テキストのサンプルに存在する言語を検出することである。
さらに、一連のテキストは単一の固有言語に属するのではなく、複数の言語で書かれたテキストの混合でもある。
この種のテキストは、フレキシブルでユーザーフレンドリーな環境のため、ソーシャルメディアプラットフォームから大量に生成されます。
このようなテキストには、統計的、確率的および他の種類の言語モデルの開発に不可欠な、非常に多くの特徴が含まれている。
多数の機能は、学習モデルの性能に様々な影響を及ぼす無関係で冗長な特徴と同様に、豊富である。
したがって、効率的なモデルに最も関係のある特徴の選択において、特徴選択手法は重要である。
本稿では、ヒンディー語と英語の識別課題について、ヒンディー語と英語はしばしばインドで最も広く話されている2つの言語であると考える。
我々は,様々な学習アルゴリズムに異なる特徴選択アルゴリズムを適用し,そのアルゴリズムの効果と課題の性能に対する特徴数を分析した。
この手法は、Twitterから抽出された6903ツイートの新しいデータセットを用いた単語レベルの言語識別に焦点を当てている。
様々なn-gramプロファイルを様々な分類器上で異なる特徴選択アルゴリズムを用いて検討する。
最後に, 課題に対する総合的な実験について, 徹底的な比較分析を行った。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets [1.1647644386277962]
多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。
本稿では,参照言語サンプルに対してデータセットの言語多様性を評価することを提案する。
論文 参考訳(メタデータ) (2024-03-06T18:14:22Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - On Decoding Strategies for Neural Text Generators [73.48162198041884]
言語生成タスクと復号化戦略の相互作用について検討する。
生成したテキストの属性の変化をデコード戦略とタスクの両方の関数として測定する。
以上の結果から,これまで観察された結果と意外な結果の両方が明らかとなった。
論文 参考訳(メタデータ) (2022-03-29T16:25:30Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Analysing The Impact Of Linguistic Features On Cross-Lingual Transfer [3.299672391663527]
我々は、最先端の多言語モデルを分析し、言語間の良い伝達に何が影響するかを判断する。
また,特定の構文特徴を見ることは,構文的類似性の集合よりも,性能予測に2~4倍有益であることを示す。
論文 参考訳(メタデータ) (2021-05-12T21:22:58Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z) - Linguistic Typology Features from Text: Inferring the Sparse Features of
World Atlas of Language Structures [73.06435180872293]
我々は、バイト埋め込みと畳み込み層に基づく繰り返しニューラルネットワーク予測器を構築する。
様々な言語型の特徴を確実に予測できることを示す。
論文 参考訳(メタデータ) (2020-04-30T21:00:53Z) - Bridging Linguistic Typology and Multilingual Machine Translation with
Multi-View Language Representations [83.27475281544868]
特異ベクトル標準相関解析を用いて、各情報源からどのような情報が誘導されるかを調べる。
我々の表現は類型学を組み込み、言語関係と相関関係を強化する。
次に、多言語機械翻訳のための多視点言語ベクトル空間を利用して、競合する全体的な翻訳精度を実現する。
論文 参考訳(メタデータ) (2020-04-30T16:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。