論文の概要: MIPIAD: Multilingual Indirect Prompt Injection Attack Defense with Qwen -- TF-IDF Hybrid and Meta-Ensemble Learning
- arxiv url: http://arxiv.org/abs/2605.07269v1
- Date: Fri, 08 May 2026 05:34:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.823588
- Title: MIPIAD: Multilingual Indirect Prompt Injection Attack Defense with Qwen -- TF-IDF Hybrid and Meta-Ensemble Learning
- Title(参考訳): MIPIAD:Qwen-TF-IDFハイブリッドとメタアンサンブル学習による多言語間接プロンプトインジェクション攻撃防御
- Authors: Al Muhit Muhtadi, Mostafa Rifat Tazwar,
- Abstract要約: MIPIADは英語とバングラ語で評価された防衛フレームワークである。
これは、Qwen2.5-1.5BからLoRA(XLPID)、TF-IDFレキシカル特徴、検証調整アンサンブルを通じて微調整されたシーケンスを組み合わせたものである。
- 参考スコア(独自算出の注目度): 0.7161783472741748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Indirect prompt injection remains a persistent weakness in retrieval-augmented and tool-using LLM systems, and the problem becomes harder to characterise in multilingual settings. We present MIPIAD, a defense framework evaluated on English and Bangla that combines a sequence classifier fine-tuned from Qwen2.5-1.5B via LoRA (XLPID), TF-IDF lexical features, and validation-tuned ensembling through late fusion, stacking, and gradient boosting. The framework is evaluated on a synthetic benchmark built from BIPIA(Yi et al., 2023) templates spanning five task families -- email, table, QA, abstract, and code-comprising over 1.43 million generated samples, with train and test splits using mutually exclusive attack categories. Across the experiments, lexical signals prove strong (TF-IDF+SVM F1=0.77), and the hybrid XLPID+TF-IDF ensemble achieves the best overall F1 (0.9205) while the Boosting Ensemble achieves the best AUROC (0.9378). Ensemble methods consistently reduce the English-Bangla cross-lingual gap relative to standalone neural models. The pipeline is designed for extensibility: NLLB-200 supports over 200 languages and XLPID's multilingual backbone can be retargeted to additional languages without architectural changes; empirical validation is currently limited to English and Bangla
- Abstract(参考訳): 間接的プロンプトインジェクションは、検索強化およびツール使用のLLMシステムにおいて永続的な弱点であり、多言語設定での特徴付けが困難になる。
提案するMIPIADは,Qwen2.5-1.5BからLoRA(XLPID)を介して微調整されたシーケンス分類器,TF-IDF語彙特徴,後期融合,積み重ね,勾配増強による検証調整されたアンサンブルを組み合わせた,英語とバングラをベースとした防御フレームワークである。
このフレームワークは、BIPIA(Yi et al , 2023)テンプレートから構築された5つのタスクファミリ(Eメール、テーブル、QA、抽象、コード補完)にまたがる合成ベンチマークで評価されている。
実験全体では、語彙信号は強く(TF-IDF+SVM F1=0.77)、ハイブリッドXLPID+TF-IDFアンサンブルはF1(0.9205)、ブースティングアンサンブルはAUROC(0.9378)である。
アンサンブル法は、スタンドアロンのニューラルモデルと比較して、英語とバングラ語間のギャップを一貫して減少させる。
NLLB-200は200以上の言語をサポートし、XLPIDの多言語バックボーンはアーキテクチャの変更なしに追加言語に再ターゲティングできる。
関連論文リスト
- UCSC-NLP at SemEval-2026 Task 13: Multi-View Generalization and Diagnostic Analysis of Machine-Generated Code Detection [0.0]
本稿では,人書きコードとAI生成コードとを区別するシステムを提案する。
Subtask Aでは、ジェネレータ不変表現を促進するマルチビュートレーニングフレームワークでUniXcoder-baseを微調整します。
サブタスクBでは,重度のクラス不均衡が致命的なマイノリティクラス障害を引き起こすことを示す。
論文 参考訳(メタデータ) (2026-04-28T21:41:59Z) - Omnilingual SONAR: Cross-Lingual and Cross-Modal Sentence Embeddings Bridging Massively Multilingual Text and Speech [61.759910921200834]
言語間の文エンコーダは通常、数百の言語をカバーしている。
我々はOmniSONARを紹介した。OmniSONARは全言語、言語横断、言語横断の文埋め込みモデルである。
論文 参考訳(メタデータ) (2026-03-17T14:47:35Z) - Hubble: An LLM-Driven Agentic Framework for Safe, Diverse, and Reproducible Alpha Factor Discovery [0.0]
本稿では,大規模言語モデル(LLM)とドメイン固有の演算子言語を組み合わせたエージェントファクタマイニングフレームワークであるHumbbleを紹介する。
約500株の米国株式の世界において、当社のメインランは、実行時クラッシュゼロの3ラウンドで104人の有効な候補を評価しています。
次に、上位5因子を修正し、2025-06-01から2026-03-13までの保留期間で検証する。
論文 参考訳(メタデータ) (2026-03-09T05:21:00Z) - XplaiNLP at CheckThat! 2025: Multilingual Subjectivity Detection with Finetuned Transformers and Prompt-Based Inference with Large Language Models [2.749729059235755]
このノートには、XplaiがCheckThat!に提出されたことを報告しています。
単言語および機械翻訳によるトレーニングデータに基づいて,変換器エンコーダの教師付き微調整,EuroBERT,XLM-RoBERTa,ジャーマン-BERTの2つの手法を評価する。
ドイツ語の場合、タイポロジーに関連のある言語から翻訳されたトレーニングデータに基づいて微調整されたドイツ語-BERTモデルでは、ベースライン上での競争性能が向上する。
論文 参考訳(メタデータ) (2025-09-15T16:53:41Z) - QU-NLP at CheckThat! 2025: Multilingual Subjectivity in News Articles Detection using Feature-Augmented Transformer Models with Sequential Cross-Lingual Fine-Tuning [0.21756081703275998]
本稿では,主観性検出における2025タスク1のチェックタットに対するアプローチについて述べる。
本稿では,事前学習した言語モデルからの文脈埋め込みと統計的・言語的特徴を組み合わせた機能拡張型トランスフォーマーアーキテクチャを提案する。
モノリンガル,多言語,ゼロショット設定で,英語,アラビア語,ドイツ語,イタリア語,およびいくつかの未知言語を含む複数の言語で評価を行った。
論文 参考訳(メタデータ) (2025-07-01T13:39:59Z) - Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。
この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。
さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文 参考訳(メタデータ) (2025-05-24T12:31:27Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Empirical study of pretrained multilingual language models for zero-shot cross-lingual knowledge transfer in generation [22.962667039293976]
言語間の知識伝達により、多言語事前学習言語モデル(mPLM)が他の言語で予測できる。
以前の作業では、間違った言語で頻繁に発生する問題に気付き、通常、mT5をバックボーンモデルとして使用して対処するためのアプローチを提案する。
本研究では,mBART や NLLB-200 などの代替 mPLM を,アダプタを用いた完全微調整およびパラメータ効率の高い微調整により検証する。
論文 参考訳(メタデータ) (2023-10-15T18:58:53Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。