論文の概要: Reasoning-Guided Claim Normalization for Noisy Multilingual Social Media Posts
- arxiv url: http://arxiv.org/abs/2511.05078v1
- Date: Fri, 07 Nov 2025 08:52:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.713813
- Title: Reasoning-Guided Claim Normalization for Noisy Multilingual Social Media Posts
- Title(参考訳): 雑音のある多言語ソーシャルメディアポストに対する推論ガイドによるクレーム正規化
- Authors: Manan Sharma, Arya Suneesh, Manish Jain, Pawan Kumar Rajpoot, Prasanna Devadiga, Bharatdeep Hazarika, Ashish Shrivastava, Kishan Gurumurthy, Anshuman B Suresh, Aditya U Baliga,
- Abstract要約: ノイズの多いソーシャルメディアの投稿を、20言語にわたる明確で検証可能なステートメントに変換する。
重要なコントリビューションは、誰が、何、どこで、いつ、なぜ、どのように質問が堅牢な言語間の移動を可能にするかを使って、投稿を体系的に分解する方法を示している。
- 参考スコア(独自算出の注目度): 1.6463331652188433
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We address claim normalization for multilingual misinformation detection - transforming noisy social media posts into clear, verifiable statements across 20 languages. The key contribution demonstrates how systematic decomposition of posts using Who, What, Where, When, Why and How questions enables robust cross-lingual transfer despite training exclusively on English data. Our methodology incorporates finetuning Qwen3-14B using LoRA with the provided dataset after intra-post deduplication, token-level recall filtering for semantic alignment and retrieval-augmented few-shot learning with contextual examples during inference. Our system achieves METEOR scores ranging from 41.16 (English) to 15.21 (Marathi), securing third rank on the English leaderboard and fourth rank for Dutch and Punjabi. The approach shows 41.3% relative improvement in METEOR over baseline configurations and substantial gains over existing methods. Results demonstrate effective cross-lingual generalization for Romance and Germanic languages while maintaining semantic coherence across diverse linguistic structures.
- Abstract(参考訳): マルチリンガルな誤情報検出のためのクレーム正規化 - ノイズの多いソーシャルメディア投稿を20言語にわたる明確で検証可能なステートメントに変換する。
重要なコントリビューションは、英語データのみをトレーニングしているにもかかわらず、誰が、何、どこで、いつ、なぜ、どのように、どのように質問が頑健な言語間の移動を可能にするかを、いかに体系的に分解するかを示している。
提案手法では,LORAを用いたQwen3-14Bの微調整と,ポスト内重複後のデータセット,意味的アライメントのためのトークンレベルのリコールフィルタ,および推論中の文脈例を用いた検索強化少ショット学習を取り入れた。
我々のシステムは、41.16(英語)から15.21(マラティ)までのMETEORスコアを達成し、英語のリーダーボードで3位、オランダ語とパンジャービで4位を確保した。
このアプローチは、ベースライン構成よりもMETEORが41.3%向上し、既存の方法よりも大幅に向上したことを示している。
結果は,ロマンス語とゲルマン語に対して,多様な言語構造にまたがる意味的コヒーレンスを維持しつつ,効果的な言語間一般化を示す。
関連論文リスト
- Benchmarking Diarization Models [38.40457780873775]
我々は、複数の言語と音響条件にまたがる4つのダイアリゼーションデータセットに対して、最先端のダイアリゼーションモデル5つを評価する。
PyannoteAI は 11.2% DER で最高のパフォーマンスを達成し、DiariZen は 13.3% DER で競争力のあるオープンソースの代替手段を提供する。
故障事例を解析すると,ダイアリゼーションエラーの主な原因は音声セグメントの欠落と話者の混乱にあることがわかった。
論文 参考訳(メタデータ) (2025-09-30T12:32:41Z) - Towards Explainable Bilingual Multimodal Misinformation Detection and Localization [64.37162720126194]
BiMiは、地域レベルのローカライゼーション、言語間および言語間整合性検出、誤情報解析のための自然言語説明を共同で行うフレームワークである。
BiMiBenchは、実際のニュース画像とサブタイトルを体系的に編集するベンチマークである。
BiMiは、分類精度が+8.9で、ローカライゼーション精度が+15.9で、BERTScoreを+2.5で上回る。
論文 参考訳(メタデータ) (2025-06-28T15:43:06Z) - Multilingual vs Crosslingual Retrieval of Fact-Checked Claims: A Tale of Two Approaches [8.127643463046516]
マルチリンガルおよびクロスリンガルのパフォーマンスを改善するための戦略を検討する。
47言語におけるポストとクレームを含むデータセットに対するアプローチを評価する。
最も重要なことは、多言語性は多言語性よりも独自の特徴を持つセットアップであることが示される。
論文 参考訳(メタデータ) (2025-05-28T08:47:10Z) - Multilingual Retrieval Augmented Generation for Culturally-Sensitive Tasks: A Benchmark for Cross-lingual Robustness [30.00463676754559]
検索したウィキペディア文書と組み合わせた領土紛争のデータセットであるBordIRLinesを49言語で紹介する。
我々は多言語検索のための複数のモードを定式化することにより、このRAG設定の言語間ロバスト性を評価する。
実験の結果,多様な言語からの視点を取り入れることで,ロバスト性の向上が期待できることがわかった。
論文 参考訳(メタデータ) (2024-10-02T01:59:07Z) - Prosody in Cascade and Direct Speech-to-Text Translation: a case study
on Korean Wh-Phrases [79.07111754406841]
本研究は,韻律が重要な役割を果たす発話を明瞭にするための直接S2TTシステムの能力を評価するために,コントラスト評価を用いることを提案する。
本結果は,カスケード翻訳モデルよりも直接翻訳システムの価値を明確に示すものである。
論文 参考訳(メタデータ) (2024-02-01T14:46:35Z) - Multi-EuP: The Multilingual European Parliament Dataset for Analysis of
Bias in Information Retrieval [62.82448161570428]
このデータセットは、多言語情報検索コンテキストにおける公平性を調べるために設計されている。
真正な多言語コーパスを持ち、24言語すべてに翻訳されたトピックを特徴としている。
文書に関連する豊富な人口統計情報を提供し、人口統計バイアスの研究を容易にする。
論文 参考訳(メタデータ) (2023-11-03T12:29:11Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。