論文の概要: Diagnosing Generalization Failures in Fine-Tuned LLMs: A Cross-Architectural Study on Phishing Detection
- arxiv url: http://arxiv.org/abs/2601.10524v1
- Date: Thu, 15 Jan 2026 15:51:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 19:43:19.203577
- Title: Diagnosing Generalization Failures in Fine-Tuned LLMs: A Cross-Architectural Study on Phishing Detection
- Title(参考訳): 微調整LDMにおける一般化失敗の診断 : フィッシング検出に関するクロスアーキテクチャ的研究
- Authors: Frank Bobe, Gregory D. Vetaw, Chase Pavlick, Darshan Bryner, Matthew Cook, Jose Salas-Vernis,
- Abstract要約: 一般化は、アーキテクチャとデータの多様性の強力な相乗効果によって引き起こされる。
いくつかのアーキテクチャは本質的により一般化可能である。
Mistralモデルは、複数のトレーニングパラダイムにまたがる一貫性とレジリエントなパフォーマーであることが証明されている。
- 参考スコア(独自算出の注目度): 0.18472148461613158
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The practice of fine-tuning Large Language Models (LLMs) has achieved state-of-the-art performance on specialized tasks, yet diagnosing why these models become brittle and fail to generalize remains a critical open problem. To address this, we introduce and apply a multi-layered diagnostic framework to a cross-architectural study. We fine-tune Llama 3.1 8B, Gemma 2 9B, and Mistral models on a high-stakes phishing detection task and use SHAP analysis and mechanistic interpretability to uncover the root causes of their generalization failures. Our investigation reveals three critical findings: (1) Generalization is driven by a powerful synergy between architecture and data diversity. The Gemma 2 9B model achieves state-of-the-art performance (>91\% F1), but only when trained on a stylistically diverse ``generalist'' dataset. (2) Generalization is highly architecture-dependent. We diagnose a specific failure mode in Llama 3.1 8B, which performs well on a narrow domain but cannot integrate diverse data, leading to a significant performance drop. (3) Some architectures are inherently more generalizable. The Mistral model proves to be a consistent and resilient performer across multiple training paradigms. By pinpointing the flawed heuristics responsible for these failures, our work provides a concrete methodology for diagnosing and understanding generalization failures, underscoring that reliable AI requires deep validation of the interplay between architecture, data, and training strategy.
- Abstract(参考訳): 大規模言語モデル(LLM)を微調整するプラクティスは、専門的なタスクにおいて最先端のパフォーマンスを達成したが、これらのモデルが脆弱になり、一般化に失敗する理由を診断することは、依然として重要なオープンな問題である。
これを解決するために,多層診断フレームワークをアーキテクチャ横断研究に適用する。
高速フィッシング検出タスクにおいてLlama 3.1 8B,Gemma 2 9B,Mistralモデルを微調整し,SHAP解析と機械論的解析により一般化失敗の原因を明らかにする。
1) 一般化は, アーキテクチャとデータ多様性の強力な相乗効果によって引き起こされる。
Gemma 2 9Bモデルは最先端のパフォーマンス(>91\% F1)を達成するが、スタイリスティックに多様性のある‘ジェネラリスト’データセットでトレーニングする場合のみである。
2) 一般化はアーキテクチャに依存している。
我々はLlama 3.1 8Bで特定の障害モードを診断し、狭い領域でうまく機能するが、多様なデータを統合できないため、大幅なパフォーマンス低下をもたらす。
(3)いくつかのアーキテクチャは本質的により一般化可能である。
Mistralモデルは、複数のトレーニングパラダイムにまたがる一貫性とレジリエントなパフォーマーであることが証明されている。
これらの失敗の原因となる欠陥のあるヒューリスティックを指摘することによって、私たちの研究は、一般化失敗の診断と理解のための具体的な方法論を提供し、信頼性の高いAIには、アーキテクチャ、データ、トレーニング戦略間の相互作用の深い検証が必要である、と説明している。
関連論文リスト
- Architecture Decoupling Is Not All You Need For Unified Multimodal Model [64.19284951218098]
本稿では,トレーニング中のタスク-特定マルチモーダルインタラクションパターンを明示的に学習する,意図的インタラクションアライメント(AIA)の損失を提案する。
AIAは、横断的な注意パターンを洗練するだけでなく、生成と理解の両方のパフォーマンスも向上させる。
論文 参考訳(メタデータ) (2025-11-27T17:55:25Z) - PublicAgent: Multi-Agent Design Principles From an LLM-Based Open Data Analysis Framework [5.863391019411233]
大規模言語モデルは個々のタスクを約束するが、エンドツーエンドの分析は基本的な制限を露呈する。
PublicAgentは、意図の明確化、データセット発見、分析、レポートのための特殊なエージェントへの分解を通じて、これらの制限に対処するマルチエージェントフレームワークである。
論文 参考訳(メタデータ) (2025-11-04T21:48:11Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - An Empirical Study on Failures in Automated Issue Solving [12.571536148821144]
我々は,SWE-Bench-Verifiedの自動問題解決タスクにおいて,パイプラインベースとエージェントアーキテクチャの両方にまたがる3つのSOTAツールの性能と効率を分析する。
ハイレベルなパフォーマンス指標から根本原因分析に移行するために,150件の障害事例の体系的手動分析を行った。
その結果、2つのアーキテクチャパラダイムの間には明確な失敗の指紋が明らかとなり、ほとんどのエージェント的失敗は、欠陥のある推論と認知的デッドロックに起因する。
論文 参考訳(メタデータ) (2025-09-17T13:07:52Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - AnomalyMoE: Towards a Language-free Generalist Model for Unified Visual Anomaly Detection [29.06542941993374]
AnomalyMoEは、Mixture-of-Expertsアーキテクチャに基づいた、新しく普遍的な異常検出フレームワークである。
我々の重要な洞察は、複雑な異常検出問題を3つの異なる意味階層に分解することである。
AnomalyMoEはパッチ、コンポーネント、グローバルレベルで3つの専用の専門家ネットワークを使用している。
論文 参考訳(メタデータ) (2025-08-08T10:33:18Z) - Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。
本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文 参考訳(メタデータ) (2025-06-12T07:24:59Z) - A Large-scale Benchmark on Geological Fault Delineation Models: Domain Shift, Training Dynamics, Generalizability, Evaluation and Inferential Behavior [11.859145373647474]
本研究は,地震解析における領域シフト戦略のガイドラインを提供するために設計された,最初の大規模ベンチマーク研究である。
私たちのベンチマークでは、モデルアーキテクチャ、データセット、トレーニング戦略を3つのデータセットで200以上組み合わせています。
我々の分析は、ソースとターゲットのデータセットが結合していない場合、一般的な微調整のプラクティスが破滅的な忘れを招きかねないことを示している。
論文 参考訳(メタデータ) (2025-05-13T13:56:43Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - DIGIC: Domain Generalizable Imitation Learning by Causal Discovery [69.13526582209165]
因果性は機械学習と組み合わせて、ドメインの一般化のための堅牢な表現を生成する。
我々は、実証データ分布を活用して、ドメインの一般化可能なポリシーの因果的特徴を発見するために、異なる試みを行っている。
DIGICと呼ばれる新しいフレームワークを設計し、実演データ分布から専門家行動の直接的な原因を見出すことにより因果的特徴を識別する。
論文 参考訳(メタデータ) (2024-02-29T07:09:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。