論文の概要: BTPD: A Multilingual Hand-curated Dataset of Bengali Transnational Political Discourse Across Online Communities
- arxiv url: http://arxiv.org/abs/2506.06813v1
- Date: Sat, 07 Jun 2025 14:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.490875
- Title: BTPD: A Multilingual Hand-curated Dataset of Bengali Transnational Political Discourse Across Online Communities
- Title(参考訳): BTPD: オンラインコミュニティ全体でのベンガル超国家政治談話の多言語ハンドキュレートデータセット
- Authors: Dipto Das, Syed Ishtiaque Ahmed, Shion Guha,
- Abstract要約: 本稿では,3つのオンラインプラットフォームから収集したベンガル政治談話(BTPD)の多言語データセットについて述べる。
本稿では,その話題と多言語コンテンツについて概観する。
- 参考スコア(独自算出の注目度): 25.55378198149251
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding political discourse in online spaces is crucial for analyzing public opinion and ideological polarization. While social computing and computational linguistics have explored such discussions in English, such research efforts are significantly limited in major yet under-resourced languages like Bengali due to the unavailability of datasets. In this paper, we present a multilingual dataset of Bengali transnational political discourse (BTPD) collected from three online platforms, each representing distinct community structures and interaction dynamics. Besides describing how we hand-curated the dataset through community-informed keyword-based retrieval, this paper also provides a general overview of its topics and multilingual content.
- Abstract(参考訳): オンライン空間における政治的言論の理解は、世論やイデオロギー的偏見の分析に不可欠である。
ソーシャル・コンピューティングと計算言語学はそのような議論を英語で探求してきたが、データセットが利用できないため、ベンガル語のような主要言語ではそのような研究は著しく制限されている。
本稿では,3つのオンラインプラットフォームから収集されたベンガル超国家政治談話(BTPD)の多言語データセットについて述べる。
コミュニティインフォームドキーワードベースの検索を通じてデータセットを手作業で作成する方法を説明するとともに,そのトピックスと多言語コンテンツの概要を概説する。
関連論文リスト
- Probing Politico-Economic Bias in Multilingual Large Language Models: A Cultural Analysis of Low-Resource Pakistani Languages [6.5137518437747]
本稿では、パキスタンで話されている5つの低リソース言語を対象とした、13の大規模言語モデル(LLM)における政治的バイアスの体系的分析について述べる。
本手法は、経済(右派)と社会(リバタリアン・権威主義)の軸間の政治的指向の定量的評価と、内容、スタイル、強調を通じてのフレーミングの質的分析とを組み合わせる。
その結果, LLMは欧米の訓練データの影響を反映しながら, リベラル左派と概ね一致しているが, 地域言語における権威主義的フレーミングへの顕著な変化がみられた。
論文 参考訳(メタデータ) (2025-05-29T15:15:42Z) - Multilingual Topic Classification in X: Dataset and Analysis [19.725017254962918]
X-Topicは4つの異なる言語(英語、スペイン語、日本語、ギリシャ語)のコンテンツを含む多言語データセットである。
私たちのデータセットには、ソーシャルメディアコンテンツに適した幅広いトピックが含まれています。
論文 参考訳(メタデータ) (2024-10-04T01:37:26Z) - Socially Responsible Data for Large Multilingual Language Models [12.338723881042926]
大規模言語モデル(LLM)は、過去3年間で、急速にサイズと明らかな能力が向上している。
グローバル・ノース以外の地域社会の言語に対応するためのモデルを模索している。
論文 参考訳(メタデータ) (2024-09-08T23:51:04Z) - FREDSum: A Dialogue Summarization Corpus for French Political Debates [26.76383031532945]
本稿では,多言語対話要約のための資源強化を目的とした,フランスの政治論争のデータセットを提案する。
われわれのデータセットは、手書きと注釈付き政治討論から成り、さまざまなトピックや視点をカバーしている。
論文 参考訳(メタデータ) (2023-12-08T05:42:04Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Quantifying the Dialect Gap and its Correlates Across Languages [69.18461982439031]
この研究は、明らかな相違を明らかにし、マインドフルなデータ収集を通じてそれらに対処する可能性のある経路を特定することによって、方言NLPの分野を強化する基盤となる。
論文 参考訳(メタデータ) (2023-10-23T17:42:01Z) - Multi3WOZ: A Multilingual, Multi-Domain, Multi-Parallel Dataset for
Training and Evaluating Culturally Adapted Task-Oriented Dialog Systems [64.40789703661987]
Multi3WOZは、新しいマルチ言語、マルチドメイン、マルチ並列ToDデータセットである。
大規模で、4つの言語で文化的に適応したダイアログを提供する。
最終データセットを生成する複雑なボトムアップデータ収集プロセスについて述べる。
論文 参考訳(メタデータ) (2023-07-26T08:29:42Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language [1.2246649738388389]
ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
論文 参考訳(メタデータ) (2020-12-28T16:46:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。