論文の概要: "AGI" team at SHROOM-CAP: Data-Centric Approach to Multilingual Hallucination Detection using XLM-RoBERTa
- arxiv url: http://arxiv.org/abs/2511.18301v1
- Date: Sun, 23 Nov 2025 05:48:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.75774
- Title: "AGI" team at SHROOM-CAP: Data-Centric Approach to Multilingual Hallucination Detection using XLM-RoBERTa
- Title(参考訳): SHROOM-CAP「AGI」チーム:XLM-RoBERTaを用いた多言語幻覚検出のためのデータ中心的アプローチ
- Authors: Harsh Rathva, Pruthwik Mishra, Shrikant Malviya,
- Abstract要約: 本稿では,SHROOM-CAP 2025の9言語にわたる科学的幻覚検出タスクについて述べる。
既存の5つのデータセットを統合して、124,821のサンプル(50%の正解、50%の幻覚)からなる総合的なトレーニングコーパスを作成します。
我々の結果は、体系的なデータキュレーションがアーキテクチャの革新を単独で著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 2.444311666637296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The detection of hallucinations in multilingual scientific text generated by Large Language Models (LLMs) presents significant challenges for reliable AI systems. This paper describes our submission to the SHROOM-CAP 2025 shared task on scientific hallucination detection across 9 languages. Unlike most approaches that focus primarily on model architecture, we adopted a data-centric strategy that addressed the critical issue of training data scarcity and imbalance. We unify and balance five existing datasets to create a comprehensive training corpus of 124,821 samples (50% correct, 50% hallucinated), representing a 172x increase over the original SHROOM training data. Our approach fine-tuned XLM-RoBERTa-Large with 560 million parameters on this enhanced dataset, achieves competitive performance across all languages, including \textbf{2nd place in Gujarati} (zero-shot language) with Factuality F1 of 0.5107, and rankings between 4th-6th place across the remaining 8 languages. Our results demonstrate that systematic data curation can significantly outperform architectural innovations alone, particularly for low-resource languages in zero-shot settings.
- Abstract(参考訳): LLM(Large Language Models)が生成する多言語科学テキストにおける幻覚の検出は,信頼性の高いAIシステムにおいて重要な課題である。
本稿では,SHROOM-CAP 2025の9言語にわたる科学的幻覚検出タスクについて述べる。
主にモデルアーキテクチャに焦点を当てた多くのアプローチとは異なり、データ不足と不均衡をトレーニングする上で重要な問題に対処する、データ中心の戦略を採用しました。
既存の5つのデータセットを統一してバランスを取り、124,821個のサンプル(50%は正しい、50%は幻覚的)からなる総合的なトレーニングコーパスを作成しました。
我々のアプローチでは、XLM-RoBERTa-Largeを5億6000万のパラメータで微調整し、残りの8言語で4位から6位までのランク付けを行い、すべての言語で競合性能を実現しました。
以上の結果から,構造化データキュレーションは,特にゼロショット環境での低リソース言語において,アーキテクチャの革新性に優れることが示された。
関連論文リスト
- FiNERweb: Datasets and Artifacts for Scalable Multilingual Named Entity Recognition [12.125413756152833]
教師/学生のパラダイムを91言語と25のスクリプトに拡張するデータセット生成パイプラインであるFiNERwebを紹介した。
FineWeb-Edu 上に構築した手法では,回帰モデルを用いて NER 関連パスを識別し,多言語 LLM でアノテートする。
実験の結果, 回帰モデルは84F1以上を達成でき, また, FiNERwebでトレーニングしたモデルでは, ゼロショット転送設定で同等あるいは改善された性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-12-15T20:36:39Z) - Scaling Arabic Medical Chatbots Using Synthetic Data: Enhancing Generative AI with Synthetic Patient Records [0.4666493857924357]
学習コーパスを10万レコードに拡張するためのスケーラブルな合成データ拡張戦略を提案する。
元のデータセットの構造を基盤とした,コンテキスト的に関連性があり,医療的に整合性のある合成質問応答ペアを8万個生成した。
論文 参考訳(メタデータ) (2025-09-12T09:58:11Z) - When Scale Meets Diversity: Evaluating Language Models on Fine-Grained Multilingual Claim Verification [14.187153195380668]
大規模言語モデルは、多くのNLPタスクにまたがる顕著な能力を持つが、ニュアンス付き分類スキームを用いた多言語クレーム検証の有効性は、まだ検討されていない。
X-Factデータセットでは、7つの異なる精度カテゴリを持つ25言語にまたがる5つの最先端言語モデルを評価する。
驚くべきことに、XLM-R は全試験 LLM よりかなり優れており、57.7% のマクロF1 を 16.9% の最高の LLM 性能と比較すると達成している。
論文 参考訳(メタデータ) (2025-07-28T10:49:04Z) - Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。
異なる言語群に対する学習がいかに異なるかを検討する。
私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2025-01-09T10:26:14Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - Enhancing Model Performance in Multilingual Information Retrieval with
Comprehensive Data Engineering Techniques [10.57012904999091]
我々は、MIRACLデータセットを用いて、事前訓練された多言語トランスフォーマーベースモデルを微調整する。
モデルの改善は主に、多様なデータエンジニアリング技術によって達成されます。
我々はSurprise-Languagesトラックで2位、Known-Languagesトラックで0.835位、3位、NDCG@10スコアで16の既知の言語で平均0.716位を確保した。
論文 参考訳(メタデータ) (2023-02-14T12:37:32Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Few-Shot Cross-lingual Transfer for Coarse-grained De-identification of
Code-Mixed Clinical Texts [56.72488923420374]
事前学習型言語モデル (LM) は低リソース環境下での言語間移動に大きな可能性を示している。
脳卒中におけるコードミキシング(スペイン・カタラン)臨床ノートの低リソース・実世界の課題を解決するために,NER (name recognition) のためのLMの多言語間転写特性を示す。
論文 参考訳(メタデータ) (2022-04-10T21:46:52Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。