論文の概要: The Model's Language Matters: A Comparative Privacy Analysis of LLMs
- arxiv url: http://arxiv.org/abs/2510.08813v1
- Date: Thu, 09 Oct 2025 20:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 04:53:46.9111
- Title: The Model's Language Matters: A Comparative Privacy Analysis of LLMs
- Title(参考訳): モデルの言語は重要である: LLMの比較プライバシー分析
- Authors: Abhishek K. Mishra, Antoine Boutet, Lucas Magnana,
- Abstract要約: 我々は,6つの言語指標を定量化し,抽出,反事実記憶,会員推定の3つの攻撃ベクトルを評価する。
イタリアは最も強い漏れを示す一方、英語は高い会員分離性を示す。
フランスとスペインは、モルフォロジーの複雑さが高いため、より大きなレジリエンスを示す。
- 参考スコア(独自算出の注目度): 0.3441021278275805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly deployed across multilingual applications that handle sensitive data, yet their scale and linguistic variability introduce major privacy risks. Mostly evaluated for English, this paper investigates how language structure affects privacy leakage in LLMs trained on English, Spanish, French, and Italian medical corpora. We quantify six linguistic indicators and evaluate three attack vectors: extraction, counterfactual memorization, and membership inference. Results show that privacy vulnerability scales with linguistic redundancy and tokenization granularity: Italian exhibits the strongest leakage, while English shows higher membership separability. In contrast, French and Spanish display greater resilience due to higher morphological complexity. Overall, our findings provide the first quantitative evidence that language matters in privacy leakage, underscoring the need for language-aware privacy-preserving mechanisms in LLM deployments.
- Abstract(参考訳): 大きな言語モデル(LLM)は、センシティブなデータを扱う多言語アプリケーションにデプロイされる傾向にあるが、そのスケールと言語的多様性は、大きなプライバシーリスクをもたらす。
本稿では,言語構造が英語,スペイン語,フランス語,イタリア語の医療コーパスで訓練されたLSMのプライバシー漏洩に与える影響について検討する。
我々は,6つの言語指標を定量化し,抽出,反事実記憶,会員推定の3つの攻撃ベクトルを評価する。
結果は、プライバシーの脆弱性は言語的冗長性とトークン化の粒度によってスケールしていることを示している。
対照的に、フランスとスペインは、モルフォロジーの複雑さが高いため、より大きなレジリエンスを示す。
全体として、私たちの発見は、LLMデプロイメントにおける言語対応のプライバシ保存機構の必要性を強調し、プライバシリークにおいて言語が重要であることを示す最初の定量的証拠を提供する。
関連論文リスト
- Humans overrely on overconfident language models, across languages [32.71245803698373]
5言語にわたる多言語言語(ミス)校正,過信,過信のリスクについて検討した。
私たちの研究によると、言語全体で過度に信頼されるリスクが高いことが分かりました。
論文 参考訳(メタデータ) (2025-07-08T18:01:01Z) - The Emergence of Abstract Thought in Large Language Models Beyond Any Language [95.50197866832772]
大規模言語モデル(LLM)は様々な言語で効果的に機能する。
予備的研究では、LLMの隠れた活性化は、英語以外のプロンプトに反応してもしばしば英語に類似している。
近年の結果は多言語のパフォーマンスが強く、他の言語での特定のタスクにおける英語のパフォーマンスを超えている。
論文 参考訳(メタデータ) (2025-06-11T16:00:54Z) - When Less Language is More: Language-Reasoning Disentanglement Makes LLMs Better Multilingual Reasoners [111.50503126693444]
言語固有のアブレーションは多言語推論性能を継続的に向上させることを示す。
トレーニング後のアブレーションと比較して、トレーニング不要のアブレーションは、計算オーバーヘッドを最小限に抑えながら、同等または優れた結果が得られる。
論文 参考訳(メタデータ) (2025-05-21T08:35:05Z) - Guardians of Discourse: Evaluating LLMs on Multilingual Offensive Language Detection [10.129235204880443]
非英語文脈におけるタスクに対する異なるプロンプト言語と拡張翻訳データの影響を評価する。
本稿では, LLMにおける固有バイアスと, センシティブなトピックに関する誤予測におけるデータセットの影響について論じる。
論文 参考訳(メタデータ) (2024-10-21T04:08:16Z) - How Do Multilingual Language Models Remember Facts? [50.13632788453612]
これまでに同定された英語のリコール機構が多言語文脈に適用可能であることを示す。
我々は、リコール中の言語の役割をローカライズし、エンリッチメントが言語に依存しないことを発見した。
デコーダのみのLLMでは、FVは2つの異なる段階でこれらの2つの情報を構成する。
論文 参考訳(メタデータ) (2024-10-18T11:39:34Z) - Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
大規模言語モデル(LLM)における多言語機能向上のための新しいアプローチであるLensを提案する。
Lensは2つの部分空間で機能する: 言語に依存しない部分空間で、ターゲット言語と中心言語を一致させて強力な意味表現を継承する部分空間、言語固有の部分空間で、ターゲット言語と中心言語を分離して言語的特異性を保存する部分空間である。
レンズは、モデルの英語能力を維持しながら、多言語のパフォーマンスを著しく向上させ、既存の訓練後のアプローチと比べて計算コストの低い結果を得る。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間の対応する概念、すなわち言語を横断的に関連付けることができるだろうか?
本研究は,言語横断的タスクにおける最先端LLMの評価である。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Decomposed Prompting: Unveiling Multilingual Linguistic Structure
Knowledge in English-Centric Large Language Models [12.700783525558721]
GPT-3やLLaMAのような英語中心のLarge Language Models (LLM)は、多言語タスクを実行する素晴らしい能力を示している。
本稿では,シーケンスラベリングタスクにおいて,これらのLLMの言語構造理解を探索するための分解的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-02-28T15:15:39Z) - Could We Have Had Better Multilingual LLMs If English Was Not the Central Language? [4.655168524016426]
大規模言語モデル(LLM)は、トレーニング対象の言語に対して強力な機械翻訳能力を示す。
我々の研究は、Llama2の翻訳能力について論じている。
実験の結果,7B Llama2モデルはこれまでに見たすべての言語に翻訳すると10 BLEU以上になることがわかった。
論文 参考訳(メタデータ) (2024-02-21T16:32:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。