論文の概要: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- arxiv url: http://arxiv.org/abs/2510.08605v1
- Date: Tue, 07 Oct 2025 10:09:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.103456
- Title: Toward a Safer Web: Multilingual Multi-Agent LLMs for Mitigating Adversarial Misinformation Attacks
- Title(参考訳): Safer Webに向けて: 敵対的誤情報攻撃を軽減するための多言語多言語LLM
- Authors: Nouar Aldahoul, Yasir Zaki,
- Abstract要約: 本稿では,Webプラグインとしてオンラインプラットフォームにデプロイ可能な検索拡張生成を備えた多言語多言語大規模言語モデルフレームワークを提案する。
我々の研究は、さまざまな攻撃に対して、オンラインの事実整合性を保護する上で、AIによる誤情報検出の重要性を強調しています。
- 参考スコア(独自算出の注目度): 1.3521447196536418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid spread of misinformation on digital platforms threatens public discourse, emotional stability, and decision-making. While prior work has explored various adversarial attacks in misinformation detection, the specific transformations examined in this paper have not been systematically studied. In particular, we investigate language-switching across English, French, Spanish, Arabic, Hindi, and Chinese, followed by translation. We also study query length inflation preceding summarization and structural reformatting into multiple-choice questions. In this paper, we present a multilingual, multi-agent large language model framework with retrieval-augmented generation that can be deployed as a web plugin into online platforms. Our work underscores the importance of AI-driven misinformation detection in safeguarding online factual integrity against diverse attacks, while showcasing the feasibility of plugin-based deployment for real-world web applications.
- Abstract(参考訳): デジタルプラットフォーム上での誤報の急速な拡散は、公衆の会話、感情的安定性、意思決定を脅かす。
過去の研究では,誤情報検出における様々な敵の攻撃について検討されてきたが,本論文で検討した具体的な変換は体系的に研究されていない。
特に、英語、フランス語、スペイン語、アラビア語、ヒンディー語、中国語の言語変化を調査し、その後に翻訳を行った。
また,要約前の問合せ長のインフレーションと,複数質問への構造的再構成についても検討した。
本稿では,Webプラグインとしてオンラインプラットフォームにデプロイ可能な検索拡張世代を備えた多言語・多言語大規模言語モデルフレームワークを提案する。
我々の研究は、さまざまな攻撃に対してオンラインの事実的整合性を保護する上で、AIによる誤情報検出の重要性を強調し、実際のWebアプリケーションに対するプラグインベースのデプロイの実現可能性を示している。
関連論文リスト
- MrGuard: A Multilingual Reasoning Guardrail for Universal LLM Safety [56.77103365251923]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。
この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。
素早い分類のための多言語ガードレールを提案する。
論文 参考訳(メタデータ) (2025-04-21T17:15:06Z) - Entity-aware Cross-lingual Claim Detection for Automated Fact-checking [7.242609314791262]
我々は,多言語クレームを扱うために,多言語クレームを適切に一般化するエンティティ対応言語間クレーム検出モデルであるEx-Claimを紹介する。
27言語にまたがる一貫したパフォーマンス向上と、トレーニング中に目に見えない言語間での堅牢な知識伝達を示す。
論文 参考訳(メタデータ) (2025-03-19T14:00:55Z) - Fine-Tuning Llama 2 Large Language Models for Detecting Online Sexual
Predatory Chats and Abusive Texts [2.406214748890827]
本稿では,Llama 2 7B-パラメーターモデルを用いて,オンライン性的捕食チャットと虐待言語の検出手法を提案する。
我々は、異なる大きさ、不均衡度、言語(英語、ローマ・ウルドゥー語、ウルドゥー語)のデータセットを用いてLLMを微調整する。
実験結果から,提案手法は3つの異なるデータセットに対して精度よく一貫した性能を示す。
論文 参考訳(メタデータ) (2023-08-28T16:18:50Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。