論文の概要: A Comparative Analysis of Noise Reduction Methods in Sentiment Analysis
on Noisy Bengali Texts
- arxiv url: http://arxiv.org/abs/2401.14360v1
- Date: Thu, 25 Jan 2024 18:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 13:44:21.509720
- Title: A Comparative Analysis of Noise Reduction Methods in Sentiment Analysis
on Noisy Bengali Texts
- Title(参考訳): 雑音性ベンガルテキストの感性分析におけるノイズ低減法の比較分析
- Authors: Kazi Toufique Elahi, Tasnuva Binte Rahman, Shakil Shahriar, Samir
Sarker, Md. Tanvir Rouf Shawon, G. M. Shahariar
- Abstract要約: 我々は、既存の感情分析データセットに見られる10種類のノイズを特定するために、手動でアノテートしたデータセット(NC-SentNoB)を紹介した。
本稿では,感情分析を行う前にノイズを緩和するためのベースライン雑音低減手法を提案する。
実験結果から, 使用したノイズ低減法は不十分であり, 将来の研究で, より適切なノイズ低減法の必要性が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Bengali is considered a language with limited resources, sentiment
analysis has been a subject of extensive research in the literature.
Nevertheless, there is a scarcity of exploration into sentiment analysis
specifically in the realm of noisy Bengali texts. In this paper, we introduce a
dataset (NC-SentNoB) that we annotated manually to identify ten different types
of noise found in a pre-existing sentiment analysis dataset comprising of
around 15K noisy Bengali texts. At first, given an input noisy text, we
identify the noise type, addressing this as a multi-label classification task.
Then, we introduce baseline noise reduction methods to alleviate noise prior to
conducting sentiment analysis. Finally, we assess the performance of fine-tuned
sentiment analysis models with both noisy and noise-reduced texts to make
comparisons. The experimental findings indicate that the noise reduction
methods utilized are not satisfactory, highlighting the need for more suitable
noise reduction methods in future research endeavors. We have made the
implementation and dataset presented in this paper publicly available at
https://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-Reduction-Methods-in-Sentiment-Analysi s-on-Noisy-Bengali-Texts
- Abstract(参考訳): ベンガル語は限られた資源を持つ言語と考えられているが、感情分析は文学における広範な研究の対象となっている。
それにもかかわらず、特に騒がしいベンガル語のテキストの領域で感情分析の探求が不足している。
本稿では,約15kの雑音ベンガルテキストからなる既存の感情分析データセットに含まれる10種類のノイズを手作業で識別するデータセット(nc-sentnob)を提案する。
まず,入力ノイズのテキストからノイズタイプを識別し,これをマルチラベル分類タスクとして扱う。
そこで本研究では,感情分析を行う前にノイズを緩和するためのベースライン雑音低減手法を提案する。
最後に,ノイズと雑音を再現したテキストを用いた微調整感情分析モデルの性能評価を行い,比較を行った。
実験結果から, 使用したノイズ低減法は不十分であり, 将来の研究でより適切なノイズ低減法の必要性が示唆された。
我々はこの論文で提示された実装とデータセットをhttps://github.com/ktoufiquee/A-Comparative-Analysis-of-Noise-reduction-Methods-in-Sentiment-on-Nois y-Bengali-Textsで公開しました。
関連論文リスト
- NoisyAG-News: A Benchmark for Addressing Instance-Dependent Noise in Text Classification [7.464154519547575]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ノイズパターンに焦点を当てている。
実世界のテキスト分類設定においてラベルノイズをよりよく理解するためのベンチマークデータセットを構築した。
以上の結果から,事前学習モデルでは合成ノイズに耐性があるものの,インスタンス依存ノイズには耐え難いことが判明した。
論文 参考訳(メタデータ) (2024-07-09T06:18:40Z) - SoftPatch: Unsupervised Anomaly Detection with Noisy Data [67.38948127630644]
本稿では,画像センサ異常検出におけるラベルレベルのノイズを初めて考察する。
本稿では,メモリベースの非教師付きAD手法であるSoftPatchを提案する。
既存の手法と比較して、SoftPatchは通常のデータの強力なモデリング能力を維持し、コアセットにおける過信問題を軽減する。
論文 参考訳(メタデータ) (2024-03-21T08:49:34Z) - Understanding the Effect of Noise in LLM Training Data with Algorithmic
Chains of Thought [0.0]
思考の連鎖におけるノイズが,高度に制御された環境下でのタスクパフォーマンスに与える影響について検討する。
本研究では,CoTトレース処理後に適用される局所的な雑音と,トレース処理時にエラーを伝播する大域的なノイズであるテクトダイナミックノイズの2種類を定義した。
微調整されたモデルでは、高レベルの静的ノイズに対して非常に頑健であるが、低レベルの動的ノイズに対してかなり苦労している。
論文 参考訳(メタデータ) (2024-02-06T13:59:56Z) - Universal Noise Annotation: Unveiling the Impact of Noisy annotation on
Object Detection [36.318411642128446]
ユニバーサルノイズについて提案する。
(UNA)は、物体検出時に発生するあらゆる種類のノイズを包含するより実用的な設定である。
本研究では,従来の検出アルゴリズムの開発方向を解析し,検出モデル学習手法の堅牢性に影響を与える要因について検討した。
データセットにUNAを注入するためのコードをオープンソースで公開し、トレーニングログとウェイトもすべて共有しています。
論文 参考訳(メタデータ) (2023-12-21T13:12:37Z) - Towards Robust and Generalizable Training: An Empirical Study of Noisy
Slot Filling for Input Perturbations [38.766702041991046]
スロット充足作業のためのノイズ-SFというノイズロバスト性評価データセットを提案する。
提案するデータセットには,5種類の人称アノテートノイズが含まれている。
ベースラインモデルはロバスト性評価において性能が劣ることがわかった。
論文 参考訳(メタデータ) (2023-10-05T12:59:57Z) - Improving the Robustness of Summarization Models by Detecting and
Removing Input Noise [50.27105057899601]
本研究では,様々な種類の入力ノイズから,様々なデータセットやモデルサイズに対する性能損失を定量化する大規模な実験的検討を行った。
本稿では,モデル推論中の入力中のそのようなノイズを検出し,除去するための軽量な手法を提案する。
論文 参考訳(メタデータ) (2022-12-20T00:33:11Z) - Sources of Noise in Dialogue and How to Deal with Them [63.02707014103651]
トレーニング対話システムは、ノイズの多いトレーニング例や予期しないユーザ入力を扱うことが多い。
その頻度にもかかわらず、現在、対話ノイズの正確な調査が欠けている。
本稿では,対話システムで発生する雑音の分類を初めて構築することによって,このギャップを解消する。
論文 参考訳(メタデータ) (2022-12-06T04:36:32Z) - Learning with Noisy Labels Revisited: A Study Using Real-World Human
Annotations [54.400167806154535]
ノイズラベルを用いた学習に関する既存の研究は、主に合成ラベルノイズに焦点を当てている。
本研究は2つの新しいベンチマークデータセット(CIFAR-10N, CIFAR-100N)を示す。
実世界のノイズラベルは古典的に採用されたクラス依存のラベルではなく、インスタンス依存のパターンに従うことを示す。
論文 参考訳(メタデータ) (2021-10-22T22:42:11Z) - A Review of Sound Source Localization with Deep Learning Methods [71.18444724397486]
本稿では,単音源および複数音源の音源定位のための深層学習手法について概説する。
この文脈におけるニューラルネットワークを用いた局所化文献の網羅的なトポグラフィーを提供する。
文献レビューを要約したテーブルをレビューの最後に提供し、所定の対象特性のセットでメソッドを素早く検索する。
論文 参考訳(メタデータ) (2021-09-08T07:25:39Z) - Analysing the Noise Model Error for Realistic Noisy Label Data [14.766574408868806]
本研究では,ノイズモデルの予測誤差を導出して,理論的な側面から推定ノイズモデルの品質について検討する。
NLPドメインから新たなノイズラベルデータセットであるNoisyNERも公開しています。
論文 参考訳(メタデータ) (2021-01-24T17:45:15Z) - Contextual Linear Bandits under Noisy Features: Towards Bayesian Oracles [65.9694455739978]
特徴不確実性の下での文脈線形帯域問題について検討する。
本分析により, 最適仮説は, 雑音特性に応じて, 基礎となる実現可能性関数から著しく逸脱しうることが明らかとなった。
これは、古典的アプローチが非自明な後悔境界を保証できないことを意味する。
論文 参考訳(メタデータ) (2017-03-03T21:39:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。