論文の概要: When Intelligence Fails: An Empirical Study on Why LLMs Struggle with Password Cracking
- arxiv url: http://arxiv.org/abs/2510.17884v2
- Date: Sun, 26 Oct 2025 07:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.586948
- Title: When Intelligence Fails: An Empirical Study on Why LLMs Struggle with Password Cracking
- Title(参考訳): インテリジェンスが失敗したとき: LLMがパスワードのひび割れに悩まされる理由に関する実証的研究
- Authors: Mohammad Abdul Rehman, Syed Imad Ali Shah, Abbas Anwar, Noor Islam,
- Abstract要約: 本研究では,事前学習した大規模言語モデルによるパスワードクラッキングの有効性を,合成ユーザプロファイルを用いて実証的に検証する。
我々は,構造化されたユーザ属性に基づいて,有意なパスワードを生成するように促すことで,最先端のオープンソースLCMの性能を評価する。
Hit@1、Hit@5、Hit@10の測定結果から、すべてのモデルがHit@10で1.5%未満の精度で、一貫してパフォーマンスが低下していることが分かりました。
- 参考スコア(独自算出の注目度): 0.41998444721319217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable capabilities of Large Language Models (LLMs) in natural language understanding and generation have sparked interest in their potential for cybersecurity applications, including password guessing. In this study, we conduct an empirical investigation into the efficacy of pre-trained LLMs for password cracking using synthetic user profiles. Specifically, we evaluate the performance of state-of-the-art open-source LLMs such as TinyLLaMA, Falcon-RW-1B, and Flan-T5 by prompting them to generate plausible passwords based on structured user attributes (e.g., name, birthdate, hobbies). Our results, measured using Hit@1, Hit@5, and Hit@10 metrics under both plaintext and SHA-256 hash comparisons, reveal consistently poor performance, with all models achieving less than 1.5% accuracy at Hit@10. In contrast, traditional rule-based and combinator-based cracking methods demonstrate significantly higher success rates. Through detailed analysis and visualization, we identify key limitations in the generative reasoning of LLMs when applied to the domain-specific task of password guessing. Our findings suggest that, despite their linguistic prowess, current LLMs lack the domain adaptation and memorization capabilities required for effective password inference, especially in the absence of supervised fine-tuning on leaked password datasets. This study provides critical insights into the limitations of LLMs in adversarial contexts and lays the groundwork for future efforts in secure, privacy-preserving, and robust password modeling.
- Abstract(参考訳): 自然言語の理解と生成におけるLLM(Large Language Models)の顕著な能力は、パスワードの推測を含むサイバーセキュリティアプリケーションへの関心を喚起した。
本研究では,合成ユーザプロファイルを用いたパスワードクラッキングにおける事前学習 LLM の有効性を実証的に検討する。
具体的には,TinyLLaMA,Falcon-RW-1B,Flan-T5といった最先端のオープンソースLLMの性能を評価する。
Hit@1, Hit@5, Hit@10の測定結果から, 平文とSHA-256ハッシュの比較結果が得られた。
対照的に、従来のルールベースおよびコンビネータベースのクラッキング手法は、成功率を著しく向上させる。
詳細な解析と可視化により、パスワード推測の領域固有のタスクに適用した場合、LLMの生成的推論における鍵となる制約を識別する。
以上の結果から,現在のLLMには,効果的なパスワード推論に必要なドメイン適応や暗記機能が欠如していること,特に漏洩したパスワードデータセットの教師付き微調整が欠如していることが示唆された。
本研究は、敵対的文脈におけるLLMの限界に対する批判的な洞察を与え、安全性、プライバシー保護、堅牢なパスワードモデリングにおける今後の取り組みの基礎となる。
関連論文リスト
- How Good LLM-Generated Password Policies Are? [0.1747820331822631]
サイバーセキュリティアクセス制御システムにおける大規模言語モデルの応用について検討する。
具体的には、LLM生成したパスワードポリシーの一貫性と正確性を調べ、自然言語のプロンプトをpwquality.conf設定ファイルに翻訳する。
本研究は,LLM の現世代における重要な課題を浮き彫りにして,アクセス制御システムにおける LLM の展開に関する貴重な知見を提供するものである。
論文 参考訳(メタデータ) (2025-06-10T01:12:31Z) - Benchmarking Large Language Models for Cryptanalysis and Side-Channel Vulnerabilities [12.669087812857533]
我々は,現在最先端の大規模言語モデル (LLM) の暗号文上での暗号解析の可能性を評価する。
ゼロショットと少数ショット設定を用いて、LLMの復号化成功率を評価し、その理解能力について議論する。
本研究は, LLMの強みと, サイドチャネルシナリオにおける限界に関する重要な知見を明らかにするとともに, 過度に一般化した攻撃に対する感受性に関する懸念を提起する。
論文 参考訳(メタデータ) (2025-05-30T14:12:07Z) - Latent Factor Models Meets Instructions: Goal-conditioned Latent Factor Discovery without Task Supervision [50.45597801390757]
Instruct-LFはゴール指向の潜在因子発見システムである。
命令フォロー機能と統計モデルを統合して、ノイズの多いデータセットを処理する。
論文 参考訳(メタデータ) (2025-02-21T02:03:08Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Understanding the Effectiveness of Large Language Models in Detecting Security Vulnerabilities [12.82645410161464]
5つの異なるセキュリティデータセットから5,000のコードサンプルに対して、16の事前学習された大規模言語モデルの有効性を評価する。
全体として、LSMは脆弱性の検出において最も穏やかな効果を示し、データセットの平均精度は62.8%、F1スコアは0.71である。
ステップバイステップ分析を含む高度なプロンプト戦略は、F1スコア(平均0.18まで)で実世界のデータセット上でのLLMのパフォーマンスを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-16T13:17:20Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。