論文の概要: HiFACTMix: A Code-Mixed Benchmark and Graph-Aware Model for EvidenceBased Political Claim Verification in Hinglish
- arxiv url: http://arxiv.org/abs/2508.10001v1
- Date: Mon, 04 Aug 2025 17:14:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-17 22:58:06.19019
- Title: HiFACTMix: A Code-Mixed Benchmark and Graph-Aware Model for EvidenceBased Political Claim Verification in Hinglish
- Title(参考訳): HiFACTMix: ヒングリッシュにおけるエビデンスに基づく政治的クレーム検証のためのコードミクシングベンチマークとグラフ認識モデル
- Authors: Rakesh Thakur, Sneha Sharma, Gauri Chopra,
- Abstract要約: 既存の事実検証システムは、インドのような言語学的に多様な地域での実際の政治談話に一般化することができない。
HiFACTMixは、多言語コンテキストエンコーディング、クレーム・エビデンス・セマンティックアライメント、エビデンスグラフ構築、グラフニューラル推論、自然言語説明生成を組み合わせた、新しいグラフウェア、検索強化ファクトチェックモデルである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fact-checking in code-mixed, low-resource languages such as Hinglish remains an underexplored challenge in natural language processing. Existing fact-verification systems largely focus on high-resource, monolingual settings and fail to generalize to real-world political discourse in linguistically diverse regions like India. Given the widespread use of Hinglish by public figures, particularly political figures, and the growing influence of social media on public opinion, there's a critical need for robust, multilingual and context-aware fact-checking tools. To address this gap a novel benchmark HiFACT dataset is introduced with 1,500 realworld factual claims made by 28 Indian state Chief Ministers in Hinglish, under a highly code-mixed low-resource setting. Each claim is annotated with textual evidence and veracity labels. To evaluate this benchmark, a novel graphaware, retrieval-augmented fact-checking model is proposed that combines multilingual contextual encoding, claim-evidence semantic alignment, evidence graph construction, graph neural reasoning, and natural language explanation generation. Experimental results show that HiFACTMix outperformed accuracy in comparison to state of art multilingual baselines models and provides faithful justifications for its verdicts. This work opens a new direction for multilingual, code-mixed, and politically grounded fact verification research.
- Abstract(参考訳): Hinglishのようなコード混在の低リソース言語でのファクトチェックは、自然言語処理における未探索の課題である。
既存の事実検証システムは、主に高資源で単言語的な設定に重点を置いており、インドのような言語学的に多様な地域での実際の政治談話への一般化に失敗している。
世論、特に政治的人物がヒングリッシュを広く利用していることや、ソーシャルメディアが世論に影響を与えていることを考えると、堅牢で多言語で文脈に合った事実チェックツールが不可欠である。
このギャップに対処するため、新しいベンチマークHiFACTデータセットは、ハイブリッシュの28のインド州首席大臣によって、高度にコード混在した低リソース設定の下で、1500の現実的な事実クレームで導入されている。
各クレームには、テキストのエビデンスと正確性ラベルが注釈付けされている。
このベンチマークを評価するために,多言語コンテクストエンコーディング,クレームエビデンスセマンティックアライメント,エビデンスグラフ構築,グラフニューラル推論,自然言語説明生成を組み合わせた,新たなグラフウェア,検索強化ファクトチェックモデルを提案する。
実験結果から,HiFACTMixは多言語ベースラインモデルと比較して精度に優れており,その判定に忠実な正当性を提供することがわかった。
この研究は、多言語、コードミキシング、政治的根拠のある事実検証研究のための新しい方向性を開く。
関連論文リスト
- Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - Creating and Evaluating Code-Mixed Nepali-English and Telugu-English Datasets for Abusive Language Detection Using Traditional and Deep Learning Models [1.835004446596942]
我々は,2千のテルグ語と5つのネパール語と英語のコードミキシングされたコメントからなる,手動で注釈付けされた新しいデータセットを紹介した。
データセットは厳格な事前処理を経て、複数の機械学習(ML)、ディープラーニング(DL)、大規模言語モデル(LLM)で評価される。
本研究は,コード混在環境における乱用言語検出の課題について,重要な知見を提供するものである。
論文 参考訳(メタデータ) (2025-04-23T11:29:10Z) - Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Claim Matching Beyond English to Scale Global Fact-Checking [5.836354423653351]
我々は、ファクトチェックされたクレームに加えて、WhatsAppのチップラインと公開グループメッセージの新しいデータセットを構築します。
我々のデータセットには、高リソース(英語、ヒンディー語)と低リソース(ベンガル語、マラヤラム語、タミル語)のコンテンツが含まれています。
我々は、低リソース言語と高リソース言語の埋め込み品質の不均衡に対応するため、知識蒸留と高品質な「教師」モデルを用いて、独自の埋め込みモデルを訓練する。
論文 参考訳(メタデータ) (2021-06-01T23:28:05Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。