Fugu-MT 論文翻訳(概要): Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks

論文の概要: Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks

arxiv url: http://arxiv.org/abs/2408.11749v1
Date: Wed, 21 Aug 2024 16:16:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-22 16:18:16.534374
Title: Against All Odds: Overcoming Typology, Script, and Language Confusion in Multilingual Embedding Inversion Attacks
Title（参考訳）: すべてのオッドに反する:多言語埋め込みインバージョンアタックにおけるタイポロジー、スクリプト、言語融合の克服
Authors: Yiyi Chen, Russa Biswas, Heather Lent, Johannes Bjerva,
Abstract要約: 大規模言語モデル(LLM)は、敵、バックドア、侵入攻撃などの侵入を通じて、サイバー攻撃者による悪意ある影響を受けやすい。本研究では,20言語にまたがる言語間およびクロススクリプト・インバージョン・インバージョン・アタックの文脈における多言語LDMの安全性について検討する。アラビア文字とキリル文字で書かれた言語は、インド・アーリア語族の言語と同様に、特にインバージョンに弱いことが示唆された。
参考スコア（独自算出の注目度）: 3.2297018268473665
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) are susceptible to malicious influence by cyber attackers through intrusions such as adversarial, backdoor, and embedding inversion attacks. In response, the burgeoning field of LLM Security aims to study and defend against such threats. Thus far, the majority of works in this area have focused on monolingual English models, however, emerging research suggests that multilingual LLMs may be more vulnerable to various attacks than their monolingual counterparts. While previous work has investigated embedding inversion over a small subset of European languages, it is challenging to extrapolate these findings to languages from different linguistic families and with differing scripts. To this end, we explore the security of multilingual LLMs in the context of embedding inversion attacks and investigate cross-lingual and cross-script inversion across 20 languages, spanning over 8 language families and 12 scripts. Our findings indicate that languages written in Arabic script and Cyrillic script are particularly vulnerable to embedding inversion, as are languages within the Indo-Aryan language family. We further observe that inversion models tend to suffer from language confusion, sometimes greatly reducing the efficacy of an attack. Accordingly, we systematically explore this bottleneck for inversion models, uncovering predictable patterns which could be leveraged by attackers. Ultimately, this study aims to further the field's understanding of the outstanding security vulnerabilities facing multilingual LLMs and raise awareness for the languages most at risk of negative impact from these attacks.
Abstract（参考訳）: 大規模言語モデル(LLM)は、敵、バックドア、侵入攻撃などの侵入を通じて、サイバー攻撃者による悪意ある影響を受けやすい。これに応えて、LLM Securityの急成長する分野は、このような脅威を調査し、防御することを目的としている。今のところ、この分野のほとんどの研究はモノリンガル・イングリッシュ・モデルに重点を置いているが、近年の研究では、多言語 LLM はモノリンガル・イングリッシュ・モデルよりも様々な攻撃に対して脆弱である可能性が示唆されている。以前の研究は、ヨーロッパの言語のごく一部に埋め込まれたインバージョンを調査してきたが、これらの発見を異なる言語族と異なるスクリプトを持つ言語に外挿することは困難である。そこで本研究では,20言語にまたがる言語間およびクロススクリプト・インバージョンを,言語ファミリ8つ,スクリプト12つにまたがって,インバージョン攻撃の組込みにおける多言語LLMの安全性について検討する。アラビア文字とキリル文字で書かれた言語は、インド・アーリア語族の言語と同様に、特にインバージョンに弱いことが示唆された。さらに、インバージョンモデルは言語の混乱に悩まされがちであり、時には攻撃の有効性を大幅に低下させる傾向があることを観察する。そこで我々は,攻撃者が活用できる予測可能なパターンを探索し,インバージョンモデルに対するこのボトルネックを体系的に検討する。究極的には、この研究は、多言語LLMが直面している優れたセキュリティ脆弱性の理解を深め、これらの攻撃によるネガティブな影響のリスクが最も高い言語に対する認識を高めることを目的としている。

関連論文リスト

Evaluating LLMs Robustness in Less Resourced Languages with Proxy Models [0.0]
数文字だけを変更し、単語の重要度を計算するために小さなプロキシモデルを使用することで、驚くほど強力な攻撃が生まれることを示す。これらの特徴と単語レベルの攻撃は、異なるLLMの予測を劇的に変えることが判明した。我々は,低リソース言語ポーランド語に対する攻撃構築手法を検証し,LLMの潜在的な脆弱性を発見する。
論文参考訳（メタデータ） (2025-06-09T11:09:39Z)
Cross-Lingual Pitfalls: Automatic Probing Cross-Lingual Weakness of Multilingual Large Language Models [55.14276067678253]
本稿では,Large Language Models (LLMs) における言語間関係の弱点を効率的に同定するための新しい手法を提案する。この手法を用いて16言語で6,000以上のバイリンガルペアからなる新しいデータセットを構築し、最先端のモデルにおいても弱点を明らかにする効果を実証した。さらに,言語的類似性と言語間の弱点との関係について検討し,言語的関連言語が類似した演奏パターンを共有することを明らかにした。
論文参考訳（メタデータ） (2025-05-24T12:31:27Z)
Refusal Direction is Universal Across Safety-Aligned Languages [66.64709923081745]
本稿では,PolyRefuseを用いた14言語にわたる大規模言語モデル(LLM)の拒絶動作について検討する。英語から抽出されたベクトルは、ほぼ完全な効果で他の言語での拒絶を回避できる。この伝達性は、埋め込み空間における言語間の拒否ベクトルの並列性に起因し、言語間ジェイルブレイクの背後にあるメカニズムを同定する。
論文参考訳（メタデータ） (2025-05-22T21:54:46Z)
BadLingual: A Novel Lingual-Backdoor Attack against Large Language Models [32.092175234635654]
本稿では,Large Language Models (LLMs) に対する新たなバックドア攻撃について述べる。まず,特定の下流タスクのトレーニングデータをトリガー言語に翻訳することで,ベースライン言語バックドアアタックを実装した。この課題に対処するために、これらのタスクの特定の疑問によらず、チャットLLM内のダウンストリームタスクをトリガーできる新しいタスク非依存の言語バックドアであるBadLingualを設計する。
論文参考訳（メタデータ） (2025-05-06T13:07:57Z)
MR. Guard: Multilingual Reasoning Guardrail using Curriculum Learning [56.79292318645454]
大規模言語モデル(LLM)は、ジェイルブレイクのような敵の攻撃を受けやすい。この脆弱性は、多言語セーフティアライメントされたデータが制限される多言語設定で悪化する。推論を用いた多言語ガードレール構築手法を提案する。
論文参考訳（メタデータ） (2025-04-21T17:15:06Z)
Are Language Models Agnostic to Linguistically Grounded Perturbations? A Case Study of Indic Languages [47.45957604683302]
本研究では,事前訓練された言語モデルが言語的に基盤付けられた攻撃に非依存であるか否かを検討する。以上の結果から, PLMは非言語的攻撃と比較して言語的摂動の影響を受けやすいが, PLMは言語的攻撃に対する感受性がわずかに低いことが明らかとなった。
論文参考訳（メタデータ） (2024-12-14T12:10:38Z)
Large Language Models are Easily Confused: A Quantitative Metric, Security Implications and Typological Analysis [5.029635172046762]
言語融合(Language Confusion)とは、大言語モデル(LLM)が所望の言語でもなく、文脈的に適切な言語でもテキストを生成する現象である。我々は,この混乱を計測し定量化するために設計された,新しい計量であるLanguage Confusion Entropyを導入する。
論文参考訳（メタデータ） (2024-10-17T05:43:30Z)
Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。 Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文参考訳（メタデータ） (2024-06-28T17:03:51Z)
Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか? 本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文参考訳（メタデータ） (2024-06-23T15:15:17Z)
TuBA: Cross-Lingual Transferability of Backdoor Attacks in LLMs with Instruction Tuning [63.481446315733145]
多言語大言語モデル(LLM)に対する言語間バックドア攻撃は未調査である。本研究は, 教育指導データが有毒でない言語に対して, 教育指導データの有毒化がアウトプットに与える影響について検討した。本手法は,mT5 や GPT-4o などのモデルにおいて,高い攻撃成功率を示し,12言語中7言語以上で90%以上を突破した。
論文参考訳（メタデータ） (2024-04-30T14:43:57Z)
Backdoor Attack on Multilingual Machine Translation [53.28390057407576]
マルチリンガル機械翻訳(MNMT)システムにはセキュリティ脆弱性がある。攻撃者は、他の言語で悪意のある翻訳を引き起こすために、有害なデータを低リソースの言語ペアに注入する。この種の攻撃は、低リソース設定に固有の言語の攻撃面が大きいことを考えると、特に懸念される。
論文参考訳（メタデータ） (2024-04-03T01:32:31Z)
A Cross-Language Investigation into Jailbreak Attacks in Large Language Models [14.226415550366504]
特に未発見の領域は多言語ジェイルブレイク攻撃である。この特定の脅威に対処する総合的な実証研究が欠如している。本研究は多言語ジェイルブレイク攻撃の理解と緩和に関する貴重な知見を提供する。
論文参考訳（メタデータ） (2024-01-30T06:04:04Z)
The Language Barrier: Dissecting Safety Challenges of LLMs in Multilingual Contexts [46.089025223336854]
本稿では,多言語にわたる大規模言語モデルが直面する安全上の課題の多様性について検討する。我々は、最先端のLLMが高レベルの言語と低レベルの言語で書かれた同じ悪意のあるプロンプトにどのように反応するかを比較する。
論文参考訳（メタデータ） (2024-01-23T23:12:09Z)
Text Embedding Inversion Security for Multilingual Language Models [2.790855523145802]
研究は、基礎となるモデルに関する知識がなくても、埋め込みからテキストを再構築できることを示している。本研究は,単言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語・多言語
論文参考訳（メタデータ） (2024-01-22T18:34:42Z)
Multilingual Jailbreak Challenges in Large Language Models [96.74878032417054]
本研究では,大規模言語モデル(LLM)における多言語ジェイルブレイク問題の存在を明らかにする。我々は、意図しないシナリオと意図的なシナリオの2つを考えます。安全な微調整のための多言語学習データを自動的に生成する新しいtextscSelf-Defense フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-10T09:44:06Z)
Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。 i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文参考訳（メタデータ） (2020-08-20T17:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。