論文の概要: "AGI" team at SHROOM-CAP: Data-Centric Approach to Multilingual Hallucination Detection using XLM-RoBERTa
- arxiv url: http://arxiv.org/abs/2511.18301v1
- Date: Sun, 23 Nov 2025 05:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.75774
- Title: "AGI" team at SHROOM-CAP: Data-Centric Approach to Multilingual Hallucination Detection using XLM-RoBERTa
- Title(参考訳): SHROOM-CAP「AGI」チーム:XLM-RoBERTaを用いた多言語幻覚検出のためのデータ中心的アプローチ
- Authors: Harsh Rathva, Pruthwik Mishra, Shrikant Malviya,
- Abstract要約: 本稿では,SHROOM-CAP 2025の9言語にわたる科学的幻覚検出タスクについて述べる。
既存の5つのデータセットを統合して、124,821のサンプル(50%の正解、50%の幻覚)からなる総合的なトレーニングコーパスを作成します。
我々の結果は、体系的なデータキュレーションがアーキテクチャの革新を単独で著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 2.444311666637296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection of hallucinations in multilingual scientific text generated by Large Language Models (LLMs) presents significant challenges for reliable AI systems. This paper describes our submission to the SHROOM-CAP 2025 shared task on scientific hallucination detection across 9 languages. Unlike most approaches that focus primarily on model architecture, we adopted a data-centric strategy that addressed the critical issue of training data scarcity and imbalance. We unify and balance five existing datasets to create a comprehensive training corpus of 124,821 samples (50% correct, 50% hallucinated), representing a 172x increase over the original SHROOM training data. Our approach fine-tuned XLM-RoBERTa-Large with 560 million parameters on this enhanced dataset, achieves competitive performance across all languages, including \textbf{2nd place in Gujarati} (zero-shot language) with Factuality F1 of 0.5107, and rankings between 4th-6th place across the remaining 8 languages. Our results demonstrate that systematic data curation can significantly outperform architectural innovations alone, particularly for low-resource languages in zero-shot settings.
- Abstract(参考訳): LLM(Large Language Models)が生成する多言語科学テキストにおける幻覚の検出は,信頼性の高いAIシステムにおいて重要な課題である。
本稿では,SHROOM-CAP 2025の9言語にわたる科学的幻覚検出タスクについて述べる。
主にモデルアーキテクチャに焦点を当てた多くのアプローチとは異なり、データ不足と不均衡をトレーニングする上で重要な問題に対処する、データ中心の戦略を採用しました。
既存の5つのデータセットを統一してバランスを取り、124,821個のサンプル(50%は正しい、50%は幻覚的)からなる総合的なトレーニングコーパスを作成しました。
我々のアプローチでは、XLM-RoBERTa-Largeを5億6000万のパラメータで微調整し、残りの8言語で4位から6位までのランク付けを行い、すべての言語で競合性能を実現しました。
以上の結果から,構造化データキュレーションは,特にゼロショット環境での低リソース言語において,アーキテクチャの革新性に優れることが示された。
関連論文リスト
- Scaling Arabic Medical Chatbots Using Synthetic Data: Enhancing Generative AI with Synthetic Patient Records [0.4666493857924357]
学習コーパスを10万レコードに拡張するためのスケーラブルな合成データ拡張戦略を提案する。
元のデータセットの構造を基盤とした,コンテキスト的に関連性があり,医療的に整合性のある合成質問応答ペアを8万個生成した。
論文 参考訳(メタデータ) (2025-09-12T09:58:11Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Enhancing Model Performance in Multilingual Information Retrieval with
Comprehensive Data Engineering Techniques [10.57012904999091]
我々は、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整する。
モデルの改善は主に、多様なデータエンジニアリング技術によって達成されます。
我々はSurprise-Languagesトラックで2位、Known-Languagesトラックで0.835位、3位、NDCG@10スコアで16の既知の言語で平均0.716位を確保した。
論文 参考訳(メタデータ) (2023-02-14T12:37:32Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。