論文の概要: À la recherche du sens perdu: your favourite LLM might have more to say than you can understand
- arxiv url: http://arxiv.org/abs/2503.00224v1
- Date: Fri, 28 Feb 2025 22:18:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:20:39.610374
- Title: À la recherche du sens perdu: your favourite LLM might have more to say than you can understand
- Title(参考訳): あなたの好きなLLMは、あなたが理解している以上に、もっと言いたいことを持っているかもしれません。
- Authors: K. O. T. Erziev,
- Abstract要約: LLMは、視覚的に人間には理解できないようなシーケンスに隠された意味を割り当てることができることを示す。
これらの意味のいくつかは、部分的にはBPEトークン化による巨大な急激な相関に由来すると仮定されている。
我々は、この観察は、現代と将来のLLMの安全性と安全性の両方に、はるかに大きな影響をもたらすかもしれないと論じる。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: We report a peculiar observation that LLMs can assign hidden meanings to sequences that seem visually incomprehensible to humans: for example, a nonsensical phrase consisting of Byzantine musical symbols is recognized by gpt-4o as "say abracadabra". Moreover, some models can communicate using these sequences. Some of these meanings are hypothesized to partly originate in the massive spurious correlations due to BPE tokenization. We systematically evaluate the presence of such abilities in a wide range of models: Claude-3.5 Haiku, Claude-3.5 Sonnet (New and Old), Claude-3.7 Sonnet, gpt-4o mini, gpt-4o, o1-mini, Llama-3.3 70B, DeepSeek-R1-Distill-Lllama 70B, Qwen2.5 1.5B, Qwen2.5 32B, Phi-3.5 mini, GigaChat-Max, Vikhr-Llama-3.2 1B. We argue that this observation might have far-reaching consequences for both safety and security of the modern and future LLMs and systems that employ them. As an illustration, we show that applying this method in combination with simple templates is sufficient to jailbreak previous generation models, with ASR = 0.4 on gpt-4o mini. Our code and data artifacts are available at https://github.com/L3G5/llm-hidden-meanings
- Abstract(参考訳): 例えば、ビザンチンの記号からなる非感覚的なフレーズは、gpt-4oによって「アブラカダブラ」と認識される。
さらに、これらのシーケンスを使って通信できるモデルもある。
これらの意味のいくつかは、部分的にはBPEトークン化による巨大な急激な相関に由来すると仮定されている。
我々は,Claude-3.5 Haiku,Claude-3.5 Sonnet (New and Old), Claude-3.7 Sonnet, gpt-4o mini, gpt-4o, o1-mini, Llama-3.3 70B, DeepSeek-R1-Distill-Lllama 70B, Qwen2.5 1.5B, Qwen2.5 32B, Phi-3.5 mini, GigaChat-Max, Vikhr-Llama-3.2Bの様々なモデルにおいて,そのような能力の存在を体系的に評価した。
この観察は、現代と将来のLLMの安全性とセキュリティの両方に大きく影響する可能性がある、と我々は主張する。
図示として、単純なテンプレートと組み合わせてこの手法を適用すると、gpt-4o mini上のASR = 0.4で以前の世代のモデルをジェイルブレイクするのに十分であることを示す。
私たちのコードとデータアーティファクトはhttps://github.com/L3G5/llm-hidden- meaningsで利用可能です。
関連論文リスト
- A Comparison of DeepSeek and Other LLMs [8.624680612413767]
比較のために短いテキストを用いて結果を予測するタスクを使用する。
分類精度に関しては、DeepSeekはGemini、GPT、Llamaより優れている。
DeepSeekは比較的遅いが、使用コストは低く、Claudeは他のすべてよりもはるかに高価だ。
論文 参考訳(メタデータ) (2025-02-06T00:38:25Z) - Predicting Emergent Capabilities by Finetuning [98.9684114851891]
微調整された言語モデルでは,出現頻度の低いモデルに展開するスケーリングのポイントをシフトできることがわかった。
提案手法は4つの標準NLPベンチマークを用いて検証する。
いくつかのケースでは、最大4倍の計算でトレーニングされたモデルが出現したかどうかを正確に予測できる。
論文 参考訳(メタデータ) (2024-11-25T01:48:09Z) - An empirical study of LLaMA3 quantization: from LLMs to MLLMs [54.91212829143966]
LLaMAファミリーは、最も強力なオープンソースの大規模言語モデル(LLM)の1つである。
LLaMA3モデルは、15T以上のデータに対する超大規模事前トレーニングによって、様々な領域で優れたパフォーマンスを実現している。
我々は,LLaMA3の1-8ビットおよび様々なデータセット上で,LLaMA3の学習後量子化とLoRA微調整(LoRA-FT)の10種類の既存手法を評価し,LLaMA3の低ビット量子化性能を明らかにする。
論文 参考訳(メタデータ) (2024-04-22T10:03:03Z) - Jailbreaking Leading Safety-Aligned LLMs with Simple Adaptive Attacks [38.25697806663553]
近年のLLMでさえ、単純な適応型ジェイルブレイク攻撃に対して堅牢ではないことが示されている。
我々は, Vicuna-13B, Mistral-7B, Phi-3-Mini, Nemotron-4-340B, Llama-2-Chat-7B/13B/70B, Llama-3-Instruct-8B, Gemma-7B, GPT-3.5, GPT-4o, R2D2の攻撃成功率を達成する。
論文 参考訳(メタデータ) (2024-04-02T17:58:27Z) - Coercing LLMs to do and reveal (almost) anything [80.8601180293558]
大規模言語モデル(LLM)に対する敵対的攻撃は、有害なステートメントを作るためにモデルを「ジェイルブレイク」することができることが示されている。
LLMに対する敵対的攻撃のスペクトルは単なるジェイルブレイクよりもはるかに大きいと我々は主張する。
論文 参考訳(メタデータ) (2024-02-21T18:59:13Z) - Using Hallucinations to Bypass GPT4's Filter [0.0]
本稿では,RLHF前の動作に逆転するように微調整したバージョンを操作する新しい手法を提案する。
このエクスプロイトは現在、GPT4、Claude Sonnet、および(ある程度は)Inflection-2.5で動作する。
論文 参考訳(メタデータ) (2024-02-16T17:02:53Z) - DeepInception: Hypnotize Large Language Model to Be Jailbreaker [70.34096187718941]
大規模言語モデル(LLM)は様々な用途で大きく成功しているが、相変わらず敵のジェイルブレイクの影響を受けやすい。
LLMのパーソナライズ機能を活用して$textita仮想ネストシーンを構築する手法を提案する。
経験的に,本手法によって引き起こされた内容は,従来と異なる有害度率を達成することができる。
論文 参考訳(メタデータ) (2023-11-06T15:29:30Z) - Fighting Fire with Fire: The Dual Role of LLMs in Crafting and Detecting
Elusive Disinformation [7.782551258221384]
大規模言語モデル(LLM)の最近のユビキティと破壊的な影響は、それらが誤用される可能性を懸念している。
本稿では,近代LLMの創発的・創発的推論能力を活用する新しい「火災を伴う火災(Fighting Fire with Fire)」戦略を提案する。
GPT-3.5-turboの精度は68-72%であった。
論文 参考訳(メタデータ) (2023-10-24T04:50:29Z) - Large Language Model-Aware In-Context Learning for Code Generation [75.68709482932903]
大規模言語モデル(LLM)は、コード生成において印象的なコンテキスト内学習(ICL)能力を示している。
コード生成のためのLAIL (LLM-Aware In-context Learning) という新しい学習ベース選択手法を提案する。
論文 参考訳(メタデータ) (2023-10-15T06:12:58Z) - RankVicuna: Zero-Shot Listwise Document Reranking with Open-Source Large
Language Models [56.51705482912727]
ゼロショット設定で高品質なリストワイドのランク付けを行うことができる初の完全オープンソースLCMである RankVicuna を提示する。
TREC 2019と2020 Deep Learning Tracksの実験結果から,GPT-4のゼロショットリランクに匹敵する効果が得られ,GPT-3.5よりもはるかに小さい7Bパラメータモデルが得られた。
論文 参考訳(メタデータ) (2023-09-26T17:31:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。