論文の概要: Chasing Shadows: Pitfalls in LLM Security Research
- arxiv url: http://arxiv.org/abs/2512.09549v2
- Date: Mon, 15 Dec 2025 08:58:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 15:10:29.160694
- Title: Chasing Shadows: Pitfalls in LLM Security Research
- Title(参考訳): チャットシャドウ - LLMセキュリティ研究における落とし穴
- Authors: Jonathan Evertz, Niklas Risse, Nicolai Neuer, Andreas Müller, Philipp Normann, Gaetano Sapia, Srishti Gupta, David Pape, Soumya Shaw, Devansh Srivastav, Christian Wressnegger, Erwin Quiring, Thorsten Eisenhofer, Daniel Arp, Lea Schönherr,
- Abstract要約: 大型言語モデル(LLM)の出現に関連する9つの共通の落とし穴を同定する。
これらの落とし穴は、データ収集、事前トレーニング、微調整から、プロンプトと評価まで、プロセス全体にわたっています。
各紙には少なくとも1つの落とし穴があり、各落とし穴は複数の論文に現れている。しかし、現在の落とし穴の15.7%しか明示的に議論されておらず、大多数は認識されていないことを示唆している。
- 参考スコア(独自算出の注目度): 14.334369124449346
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly prevalent in security research. Their unique characteristics, however, introduce challenges that undermine established paradigms of reproducibility, rigor, and evaluation. Prior work has identified common pitfalls in traditional machine learning research, but these studies predate the advent of LLMs. In this paper, we identify nine common pitfalls that have become (more) relevant with the emergence of LLMs and that can compromise the validity of research involving them. These pitfalls span the entire computation process, from data collection, pre-training, and fine-tuning to prompting and evaluation. We assess the prevalence of these pitfalls across all 72 peer-reviewed papers published at leading Security and Software Engineering venues between 2023 and 2024. We find that every paper contains at least one pitfall, and each pitfall appears in multiple papers. Yet only 15.7% of the present pitfalls were explicitly discussed, suggesting that the majority remain unrecognized. To understand their practical impact, we conduct four empirical case studies showing how individual pitfalls can mislead evaluation, inflate performance, or impair reproducibility. Based on our findings, we offer actionable guidelines to support the community in future work.
- Abstract(参考訳): 大規模言語モデル(LLM)は、セキュリティ研究においてますます普及している。
しかし、その独特の特徴は再現性、厳格性、評価の確立したパラダイムを損なう課題をもたらす。
これまでの研究では、従来の機械学習研究に共通する落とし穴が特定されていたが、これらの研究はLSMの出現より以前から存在していた。
本稿では, LLMの出現に伴う9つの共通の落とし穴を特定し, それらを含む研究の妥当性を損なう可能性がある。
これらの落とし穴は、データ収集、事前トレーニング、微調整から、プロンプトと評価まで、計算プロセス全体にわたっています。
2023年から2024年にかけてのSecurity and Software Engineeringの主要な会場で発行された72の査読論文のすべてにおいて、これらの落とし穴の頻度を評価します。
各論文には少なくとも1つの落とし穴があり、各落とし穴は複数の論文に現れる。
しかし、現在の落とし穴の15.7%のみが明示的に議論され、大多数がまだ認識されていないことが示唆された。
その実践的影響を理解するために,個々の落とし穴がどのように評価を誤解させるか,性能を低下させるか,再現性を損なうかを実証した4つの事例研究を行った。
本研究は,今後の作業において,コミュニティを支援するための実践可能なガイドラインを提供する。
関連論文リスト
- Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - Reproducibility of Machine Learning-Based Fault Detection and Diagnosis for HVAC Systems in Buildings: An Empirical Study [7.852209218432359]
本稿では,建築エネルギーシステムにおける機械学習アプリケーションの透明性と標準について分析する。
その結果、ほとんど全ての記事は、開示が不十分なため再現できないことが示唆された。
これらの知見は、ガイドライン、研究者のためのトレーニング、雑誌や会議による政策など、対象とする介入の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-23T07:35:58Z) - Paper Summary Attack: Jailbreaking LLMs through LLM Safety Papers [61.57691030102618]
我々は新しいジェイルブレイク手法であるペーパー・サプリメント・アタック(llmnamePSA)を提案する。
攻撃に焦点をあてたLLM安全紙からコンテンツを合成し、敵のプロンプトテンプレートを構築する。
実験では、ベースLLMだけでなく、Deepseek-R1のような最先端の推論モデルにも重大な脆弱性がある。
論文 参考訳(メタデータ) (2025-07-17T18:33:50Z) - Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - Awes, Laws, and Flaws From Today's LLM Research [0.0]
我々は,2020年から2024年の間に2000件を超える研究成果を,良質な研究とされる基準に基づいて評価した。
倫理的否定者の減少、評価者としてのLLMの台頭、人的評価を生かさないLLM推論能力の主張の増加など、さまざまな傾向を見出した。
論文 参考訳(メタデータ) (2024-08-27T21:19:37Z) - Fine-Grained and Thematic Evaluation of LLMs in Social Deduction Game [16.49767693984961]
本稿では,社会推論ゲームにおける大規模言語モデル(LLM)の評価に対する顕微鏡的,体系的なアプローチを提案する。
まず、最初の問題を解決する6つのきめ細かいメトリクス、特に最初の問題を解決する6つのきめ細かいメトリクスを紹介します。
2つ目の課題に対処するため,本論文ではテーマ分析を行い,LLMの性能を損なう4つの主要な原因を同定した。
論文 参考訳(メタデータ) (2024-08-19T12:35:23Z) - Reproducibility in Machine Learning-based Research: Overview, Barriers and Drivers [1.4841630983274845]
透明性の欠如、データまたはコードの欠如、標準への順守の欠如、MLトレーニングの敏感さは、原則として多くの論文が再現不可能であることを意味する。
実験では、オリジナルの結果と非常に類似性が低いことが判明した。
粗悪な完全性は研究結果の信頼と完全性を脅かす。
論文 参考訳(メタデータ) (2024-06-20T13:56:42Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Too Good To Be True: performance overestimation in (re)current practices
for Human Activity Recognition [49.1574468325115]
データセグメンテーションのためのスライディングウィンドウと、標準のランダムk倍のクロスバリデーションが続くと、バイアスのある結果が得られる。
この問題に対する科学界の認識を高めることは重要であり、その否定的な影響は見落とされつつある。
異なるタイプのデータセットと異なるタイプの分類モデルを用いたいくつかの実験により、問題を示し、メソッドやデータセットとは独立して持続することを示すことができる。
論文 参考訳(メタデータ) (2023-10-18T13:24:05Z) - Assessing Hidden Risks of LLMs: An Empirical Study on Robustness,
Consistency, and Credibility [37.682136465784254]
我々は、ChatGPT、LLaMA、OPTを含む、主流の大規模言語モデル(LLM)に100万以上のクエリを実行します。
入力が極端に汚染された場合でも、ChatGPTは正しい答えを得ることができる。
そこで本研究では,LCMによる評価において,そのようなデータの有効性を大まかに決定する新たな指標を提案する。
論文 参考訳(メタデータ) (2023-05-15T15:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。