論文の概要: RIFT: A Scalable Methodology for LLM Accelerator Fault Assessment using Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.09829v1
- Date: Wed, 10 Dec 2025 17:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.602959
- Title: RIFT: A Scalable Methodology for LLM Accelerator Fault Assessment using Reinforcement Learning
- Title(参考訳): RIFT:強化学習を用いたLLM加速器故障評価のためのスケーラブルな方法論
- Authors: Khurram Khalil, Muhammad Mahad Khaliq, Khaza Anuarul Hoque,
- Abstract要約: RIFT(Reinforcement Learning-guided Intelligent Fault Targeting)は、最小限の高インパクト障害シナリオの発見を自動化するスケーラブルなフレームワークである。
RIFTは、最悪のケース障害の複雑な探索をシーケンシャルな意思決定問題に変換する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The massive scale of modern AI accelerators presents critical challenges to traditional fault assessment methodologies, which face prohibitive computational costs and provide poor coverage of critical failure modes. This paper introduces RIFT (Reinforcement Learning-guided Intelligent Fault Targeting), a scalable framework that automates the discovery of minimal, high-impact fault scenarios for efficient design-time fault assessment. RIFT transforms the complex search for worst-case faults into a sequential decision-making problem, combining hybrid sensitivity analysis for search space pruning with reinforcement learning to intelligently generate minimal, high-impact test suites. Evaluated on billion-parameter Large Language Model (LLM) workloads using NVIDIA A100 GPUs, RIFT achieves a \textbf{2.2$\times$} fault assessment speedup over evolutionary methods and reduces the required test vector volume by over \textbf{99\%} compared to random fault injection, all while achieving \textbf{superior fault coverage}. The proposed framework also provides actionable data to enable intelligent hardware protection strategies, demonstrating that RIFT-guided selective error correction code provides a \textbf{12.8$\times$} improvement in \textbf{cost-effectiveness} (coverage per unit area) compared to uniform triple modular redundancy protection. RIFT automatically generates UVM-compliant verification artifacts, ensuring its findings are directly actionable and integrable into commercial RTL verification workflows.
- Abstract(参考訳): 現代のAIアクセラレーターの大規模な規模は、計算コストを禁止し、クリティカル障害モードのカバレッジを低くする従来の障害評価方法論に重大な課題を提示している。
本稿では, RIFT (Reinforcement Learning-guided Intelligent Fault Targeting) を提案する。
RIFTは、探索空間プルーニングのハイブリッド感度分析と強化学習を組み合わせることで、最悪のケースの複雑な探索を逐次決定問題に変換し、最小限の高インパクトテストスイートをインテリジェントに生成する。
NVIDIA A100 GPUを使用した10億パラメータのLarge Language Model (LLM)ワークロードに基づいて評価され、RIFTは進化的手法による‘textbf{2.2$\times$}障害評価スピードアップを実現し、‘textbf{99\%} 以上のテストベクトル量をランダムなフォールトインジェクションと比較して削減する。
提案フレームワークは、インテリジェントなハードウェア保護戦略を実現するための実行可能なデータも提供し、RIFT誘導による選択的エラー訂正コードが、一様三重モジュール冗長性保護と比較して、 \textbf{12.8$\times$}の改善(単位面積当たりのカバレッジ)を提供することを示した。
RIFTは、UVM準拠の検証成果物を自動的に生成し、その発見が直接動作可能で、商用のRTL検証ワークフローに統合可能であることを保証する。
関連論文リスト
- ODAR: Principled Adaptive Routing for LLM Reasoning via Active Inference [60.958331943869126]
ODAR-Expertは、原則化されたリソース割り当てによる精度と効率のトレードオフを最適化する適応的なルーティングフレームワークである。
我々は、MATHの98.2%の精度、HumanityのLast Examの54.8%を含む、強く一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-27T05:22:01Z) - ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation [72.78362530982109]
ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
論文 参考訳(メタデータ) (2026-02-02T06:33:22Z) - CVeDRL: An Efficient Code Verifier via Difficulty-aware Reinforcement Learning [57.24524263804788]
コード検証は、LLMベースのコード生成の検証後において重要な役割を果たす。
既存の教師付き微調整手法は、データの不足、高い失敗率、推論効率の低下に悩まされている。
機能的な報酬しか持たない単純RLは、難しいブランチやサンプルに対して効果的な単体テストを生成することができないことを示す。
論文 参考訳(メタデータ) (2026-01-30T10:33:29Z) - Reliable LLM-Based Edge-Cloud-Expert Cascades for Telecom Knowledge Systems [54.916243942641444]
大規模言語モデル(LLM)は、通信などの分野において、自動化の鍵となる存在として浮上している。
本研究では,問合せパイプラインによる意思決定を支援する,エッジクラウドに精通したLLMベースの知識システムについて検討する。
論文 参考訳(メタデータ) (2025-12-23T03:10:09Z) - Mixture of Ranks with Degradation-Aware Routing for One-Step Real-World Image Super-Resolution [76.66229730098759]
実世界の画像超解像(Real-ISR)では、既存のアプローチは主に微調整された事前学習拡散モデルに依存している。
単一ステップ画像超解像のためのMixture-of-Ranks (MoR)アーキテクチャを提案する。
LoRAの各ランクを独立した専門家として扱う、きめ細かい専門家分割戦略を導入する。
論文 参考訳(メタデータ) (2025-11-20T04:11:44Z) - White-Basilisk: A Hybrid Model for Code Vulnerability Detection [45.03594130075282]
我々は、優れた性能を示す脆弱性検出の新しいアプローチであるWhite-Basiliskを紹介する。
White-Basiliskは、パラメータ数2億の脆弱性検出タスクで結果を得る。
この研究は、コードセキュリティにおける新しいベンチマークを確立し、コンパクトで効率的に設計されたモデルが、特定のタスクにおいてより大きなベンチマークよりも優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2025-07-11T12:39:25Z) - Process vs. Outcome Reward: Which is Better for Agentic RAG Reinforcement Learning [45.10424242207931]
Retrieval-augmented Generation (RAG)は大規模言語モデル(LLM)のテキスト生成能力を向上する
RAG-ProGuideは,クエリ生成,エビデンス抽出,回答生成のためのプロセスレベルの報酬を提供する高品質なデータセットである。
プロセスレベルのポリシー最適化により、提案フレームワークはLLMに対して、検索を自律的に実行し、クエリを生成し、関連する証拠を抽出し、最終的な回答を生成する権限を与える。
論文 参考訳(メタデータ) (2025-05-20T08:21:00Z) - A Few Large Shifts: Layer-Inconsistency Based Minimal Overhead Adversarial Example Detection [13.109309606764754]
我々は、ターゲットモデル自体の内部の階層的不整合を利用するプラグイン検出フレームワークを導入する。
本手法は計算オーバーヘッドを無視して最先端検出性能を実現する。
論文 参考訳(メタデータ) (2025-05-19T00:48:53Z) - Enhancing Smart Contract Vulnerability Detection in DApps Leveraging Fine-Tuned LLM [0.7018579932647147]
分散アプリケーション(DApps)は、スマートコントラクトの脆弱性のため、重大なセキュリティリスクに直面します。
本稿では,Large Language Models (LLM) を利用したスマートコントラクト脆弱性検出手法を提案する。
論文 参考訳(メタデータ) (2025-04-07T12:32:14Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Deeply Learned Robust Matrix Completion for Large-scale Low-rank Data Recovery [25.33005185616769]
ロバストフィードクラウド補完(RMC)は、広く使われている機械学習ツールである。
同時に、低ランクデータ分析における2つの重要な問題に対処する。
本稿では,大規模RCC問題に対するロバスト行列学習(LRMC)を提案する。
LRMCの優れた経験的性能は、合成データセットと実際の応用に関する最先端技術に対する実験によって検証される。
論文 参考訳(メタデータ) (2024-12-31T23:22:12Z) - Towards Resource-Efficient Federated Learning in Industrial IoT for Multivariate Time Series Analysis [50.18156030818883]
異常と欠落したデータは、産業応用における厄介な問題を構成する。
ディープラーニングによる異常検出が重要な方向として現れている。
エッジデバイスで収集されたデータは、ユーザのプライバシを含む。
論文 参考訳(メタデータ) (2024-11-06T15:38:31Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Neural Fault Injection: Generating Software Faults from Natural Language [6.050976240234865]
本稿では,Reinforcement Learning from Human Feedback (RLHF) を付加したLarge Language Models (LLM) の機能を活用した新しい手法を提案する。
RLHFの使用は反復的な改善プロセスを強調しており、テスタは生成された障害に対してフィードバックを提供することができる。
この革新的な方法論は、テスターがより高いレベルのテスト戦略に集中できるように、障害シナリオの作成に関わる手作業を大幅に削減することを目的としています。
論文 参考訳(メタデータ) (2024-04-11T05:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。