論文の概要: BanMANI: A Dataset to Identify Manipulated Social Media News in Bangla
- arxiv url: http://arxiv.org/abs/2311.02570v1
- Date: Sun, 5 Nov 2023 05:49:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 16:52:17.312227
- Title: BanMANI: A Dataset to Identify Manipulated Social Media News in Bangla
- Title(参考訳): Banmani:バングラで操作されたソーシャルメディアニュースを識別するデータセット
- Authors: Mahammed Kamruzzaman, Md. Minul Islam Shovon, Gene Louis Kim
- Abstract要約: 本稿では,Banmaniと呼ばれる参照記事に対する情報操作をラベル付けしたソーシャルメディアコンテンツのデータセットをキュレートする。
私たちが記述したデータセット収集方法は、Banglaで利用可能なNLPツールの制限に関するものです。
これらのテクニックは、他の低リソース言語で同様のデータセットの構築に継続することを期待しています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Initial work has been done to address fake news detection and
misrepresentation of news in the Bengali language. However, no work in Bengali
yet addresses the identification of specific claims in social media news that
falsely manipulates a related news article. At this point, this problem has
been tackled in English and a few other languages, but not in the Bengali
language. In this paper, we curate a dataset of social media content labeled
with information manipulation relative to reference articles, called BanMANI.
The dataset collection method we describe works around the limitations of the
available NLP tools in Bangla. We expect these techniques will carry over to
building similar datasets in other low-resource languages. BanMANI forms the
basis both for evaluating the capabilities of existing NLP systems and for
training or fine-tuning new models specifically on this task. In our analysis,
we find that this task challenges current LLMs both under zero-shot and
fine-tuned settings.
- Abstract(参考訳): ベンガル語で偽ニュースの検出と誤表現に対処するために最初の作業が行われた。
しかし、ベンガルではまだ、関連するニュース記事を誤って操作するソーシャルメディアニュースの特定のクレームの特定に対処していない。
この時点でこの問題は英語や他の言語で取り組まれているが、ベンガル語では解決されていない。
本稿では,参照記事に対する情報操作をラベル付けしたソーシャルメディアコンテンツのデータセットであるbanmaniを収集する。
私たちが説明するデータセット収集方法は、Banglaで利用可能なNLPツールの制限に関するものです。
これらの技術は、他の低リソース言語で同様のデータセットを構築することに続くと期待しています。
BanMANIは、既存のNLPシステムの能力の評価と、このタスクに特化してトレーニングや微調整を行う新しいモデルの両方の基礎を形成している。
分析の結果、このタスクはゼロショットと微調整の両方で現在のLLMに挑戦することがわかった。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - BanglaBait: Semi-Supervised Adversarial Approach for Clickbait Detection
on Bangla Clickbait Dataset [0.6008132390640294]
15,056個のラベル付きニュース記事と65,406個のラベル付きニュース記事を含むバングラクリックベイト検出データセットを構築した。
各記事は3人の専門言語学者によってラベル付けされ、記事のタイトル、ボディ、その他のメタデータが含まれている。
半監視世代適応ネットワーク(SS GANs)を用いて,事前学習したバングラ変圧器モデルを逆向きに微調整する。
論文 参考訳(メタデータ) (2023-11-10T17:38:46Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models [0.0]
ベンガル語で偽ニュースを分類するための4つの異なるアプローチからなる方法論を提案する。
弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。
ベンガル語偽ニュース検出における要約と拡張の有効性を示す。
論文 参考訳(メタデータ) (2023-07-13T14:50:55Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - hBert + BiasCorp -- Fighting Racism on the Web [58.768804813646334]
これはfox news、breitbartnews、youtubeの3つの特定のソースから139,090のコメントとニュースを含むデータセットです。
本研究では、hBERT を新しい Hopfield Layer を用いて、予め訓練された BERT モデルの特定の層を修正する。
開発者がwebアプリケーションでトレーニングされたモデルを利用できるようにするため、javascriptライブラリとchrome拡張アプリケーションもリリースしています。
論文 参考訳(メタデータ) (2021-04-06T02:17:20Z) - Soft Gazetteers for Low-Resource Named Entity Recognition [78.00856159473393]
本稿では、英語知識ベースからユビキタスに利用可能な情報をニューラル名付きエンティティ認識モデルに組み込む「ソフトガゼッタ」を提案する。
4つの低リソース言語に対する実験により,F1得点の4点の平均的改善が示された。
論文 参考訳(メタデータ) (2020-05-04T21:58:02Z) - BanFakeNews: A Dataset for Detecting Fake News in Bangla [1.4170999534105675]
自動フェイクニュース検知システムの構築に使用できる50Kニュースの注釈付きデータセットを提案する。
我々は,Bangla偽ニュースを識別するためのNLP技術の現状を示すベンチマークシステムを開発した。
論文 参考訳(メタデータ) (2020-04-19T07:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。