論文の概要: Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing
- arxiv url: http://arxiv.org/abs/2512.23684v1
- Date: Mon, 29 Dec 2025 18:43:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.616784
- Title: Multilingual Hidden Prompt Injection Attacks on LLM-Based Academic Reviewing
- Title(参考訳): LLMに基づく学術レビューにおける多言語隠れプロンプトインジェクション攻撃
- Authors: Panagiotis Theocharopoulos, Ajinkya Kulkarni, Mathew Magimai. -Doss,
- Abstract要約: 大規模言語モデル(LLM)は、学術的ピアレビューを含む、高インパクトでの使用がますます検討されている。
ICMLに受理された約500の実際の学術論文のデータセットを構築し、これらの文書に隠れた敵のプロンプトを埋め込む効果を評価する。
インジェクションは,英語,日本語,中国語のインジェクションに対して,レビュースコアの大幅な変化を誘発するが,アラビアのインジェクションは効果をほとんど与えない。
- 参考スコア(独自算出の注目度): 26.82171813043921
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language models (LLMs) are increasingly considered for use in high-impact workflows, including academic peer review. However, LLMs are vulnerable to document-level hidden prompt injection attacks. In this work, we construct a dataset of approximately 500 real academic papers accepted to ICML and evaluate the effect of embedding hidden adversarial prompts within these documents. Each paper is injected with semantically equivalent instructions in four different languages and reviewed using an LLM. We find that prompt injection induces substantial changes in review scores and accept/reject decisions for English, Japanese, and Chinese injections, while Arabic injections produce little to no effect. These results highlight the susceptibility of LLM-based reviewing systems to document-level prompt injection and reveal notable differences in vulnerability across languages.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学術的ピアレビューを含む高インパクトワークフローでの使用がますます検討されている。
しかし、LSMは文書レベルのシークレットインジェクション攻撃に弱い。
本研究では,ICMLに受理された約500の学術論文のデータセットを構築し,これらの文書に隠れた敵のプロンプトを埋め込む効果を評価する。
各論文は4つの異なる言語で意味論的に等価な命令を注入し、LLMを用いてレビューする。
インジェクションは,英語,日本語,中国語のインジェクションに対して,レビュースコアの大幅な変化を誘発するが,アラビアのインジェクションは効果をほとんど与えない。
これらの結果は、文書レベルのプロンプトインジェクションに対するLLMベースのレビューシステムの感受性を強調し、言語間での脆弱性の顕著な相違を明らかにした。
関連論文リスト
- Lost in Multilinguality: Dissecting Cross-lingual Factual Inconsistency in Transformer Language Models [49.16690802656554]
複数の言語で意味論的に等価なプロンプトに対して一貫した応答を提供するのに、多言語の事実モデルでは苦労していることがわかった。
最終層での計算をバイパスし,予測精度と言語間の整合性を向上する線形ショートカット手法を提案する。
論文 参考訳(メタデータ) (2025-04-05T19:43:10Z) - LLM-as-a-Judge & Reward Model: What They Can and Cannot Do [2.2469442203227863]
自動評価器の総合的な分析を行い,その挙動に関するいくつかの重要な知見を報告する。
英語の評価能力は言語固有の評価能力に大きく影響し,英語で訓練された評価者が他の言語に容易にスキルを伝達できることがわかった。
我々は、現在最先端の評価者が、英語と韓国語の両方において、複雑な推論問題の評価や生成の限界について、挑戦的なプロンプトに苦しむことに気付きました。
論文 参考訳(メタデータ) (2024-09-17T14:40:02Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Zero-Shot Cross-Lingual Reranking with Large Language Models for
Low-Resource Languages [51.301942056881146]
アフリカ語における言語間情報検索システムにおいて,大規模言語モデル (LLM) がリランカーとしてどのように機能するかを検討する。
私たちの実装は、英語と4つのアフリカの言語(ハウサ語、ソマリ語、スワヒリ語、ヨルバ語)を対象としています。
我々は、英語のクェリとアフリカの言葉の文節による言語横断的な格付けについて検討する。
論文 参考訳(メタデータ) (2023-12-26T18:38:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。