論文の概要: RIFT: A Scalable Methodology for LLM Accelerator Fault Assessment using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.09829v1
- Date: Wed, 10 Dec 2025 17:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.602959
- Title: RIFT: A Scalable Methodology for LLM Accelerator Fault Assessment using Reinforcement Learning
- Title(参考訳): RIFT:強化学習を用いたLLM加速器故障評価のためのスケーラブルな方法論
- Authors: Khurram Khalil, Muhammad Mahad Khaliq, Khaza Anuarul Hoque,
- Abstract要約: RIFT(Reinforcement Learning-guided Intelligent Fault Targeting)は、最小限の高インパクト障害シナリオの発見を自動化するスケーラブルなフレームワークである。
RIFTは、最悪のケース障害の複雑な探索をシーケンシャルな意思決定問題に変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The massive scale of modern AI accelerators presents critical challenges to traditional fault assessment methodologies, which face prohibitive computational costs and provide poor coverage of critical failure modes. This paper introduces RIFT (Reinforcement Learning-guided Intelligent Fault Targeting), a scalable framework that automates the discovery of minimal, high-impact fault scenarios for efficient design-time fault assessment. RIFT transforms the complex search for worst-case faults into a sequential decision-making problem, combining hybrid sensitivity analysis for search space pruning with reinforcement learning to intelligently generate minimal, high-impact test suites. Evaluated on billion-parameter Large Language Model (LLM) workloads using NVIDIA A100 GPUs, RIFT achieves a \textbf{2.2$\times$} fault assessment speedup over evolutionary methods and reduces the required test vector volume by over \textbf{99\%} compared to random fault injection, all while achieving \textbf{superior fault coverage}. The proposed framework also provides actionable data to enable intelligent hardware protection strategies, demonstrating that RIFT-guided selective error correction code provides a \textbf{12.8$\times$} improvement in \textbf{cost-effectiveness} (coverage per unit area) compared to uniform triple modular redundancy protection. RIFT automatically generates UVM-compliant verification artifacts, ensuring its findings are directly actionable and integrable into commercial RTL verification workflows.
- Abstract(参考訳): 現代のAIアクセラレーターの大規模な規模は、計算コストを禁止し、クリティカル障害モードのカバレッジを低くする従来の障害評価方法論に重大な課題を提示している。
本稿では, RIFT (Reinforcement Learning-guided Intelligent Fault Targeting) を提案する。
RIFTは、探索空間プルーニングのハイブリッド感度分析と強化学習を組み合わせることで、最悪のケースの複雑な探索を逐次決定問題に変換し、最小限の高インパクトテストスイートをインテリジェントに生成する。
NVIDIA A100 GPUを使用した10億パラメータのLarge Language Model (LLM)ワークロードに基づいて評価され、RIFTは進化的手法による‘textbf{2.2$\times$}障害評価スピードアップを実現し、‘textbf{99\%} 以上のテストベクトル量をランダムなフォールトインジェクションと比較して削減する。
提案フレームワークは、インテリジェントなハードウェア保護戦略を実現するための実行可能なデータも提供し、RIFT誘導による選択的エラー訂正コードが、一様三重モジュール冗長性保護と比較して、 \textbf{12.8$\times$}の改善(単位面積当たりのカバレッジ)を提供することを示した。
RIFTは、UVM準拠の検証成果物を自動的に生成し、その発見が直接動作可能で、商用のRTL検証ワークフローに統合可能であることを保証する。
関連論文リスト
- Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Enhancing Smart Contract Vulnerability Detection in DApps Leveraging Fine-Tuned LLM [0.7018579932647147]
分散アプリケーション(DApps)は、スマートコントラクトの脆弱性のため、重大なセキュリティリスクに直面します。
本稿では,Large Language Models (LLM) を利用したスマートコントラクト脆弱性検出手法を提案する。
論文 参考訳(メタデータ) (2025-04-07T12:32:14Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Towards Resource-Efficient Federated Learning in Industrial IoT for Multivariate Time Series Analysis [50.18156030818883]
異常と欠落したデータは、産業応用における厄介な問題を構成する。
ディープラーニングによる異常検出が重要な方向として現れている。
エッジデバイスで収集されたデータは、ユーザのプライバシを含む。
論文 参考訳(メタデータ) (2024-11-06T15:38:31Z) - Neural Fault Injection: Generating Software Faults from Natural Language [6.050976240234865]
本稿では,Reinforcement Learning from Human Feedback (RLHF) を付加したLarge Language Models (LLM) の機能を活用した新しい手法を提案する。
RLHFの使用は反復的な改善プロセスを強調しており、テスタは生成された障害に対してフィードバックを提供することができる。
この革新的な方法論は、テスターがより高いレベルのテスト戦略に集中できるように、障害シナリオの作成に関わる手作業を大幅に削減することを目的としています。
論文 参考訳(メタデータ) (2024-04-11T05:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。