論文の概要: AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems
- arxiv url: http://arxiv.org/abs/2604.02478v1
- Date: Thu, 02 Apr 2026 19:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.183435
- Title: AIVV: Neuro-Symbolic LLM Agent-Integrated Verification and Validation for Trustworthy Autonomous Systems
- Title(参考訳): AIVV: 信頼できる自律システムのためのニューロシンボリックLLMエージェント統合検証と検証
- Authors: Jiyong Kwon, Ujin Jeon, Sooji Lee, Guang Lin,
- Abstract要約: Agent-Integrated Verification and Validation (AIVV)は,大規模言語モデル(LLM)を検討外ループとしてデプロイするハイブリッドフレームワークである。
評議会代理人は、あいまいさと真の失敗を意味的に検証することで協調的な検証を行う。
無人水中車両(UUV)の時系列シミュレータの実験では、AIVがHITL V&Vプロセスのデジタル化に成功した。
- 参考スコア(独自算出の注目度): 6.586256098975453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models excel at detecting anomaly patterns in normal data. However, they do not provide a direct solution for anomaly classification and scalability across diverse control systems, frequently failing to distinguish genuine faults from nuisance faults caused by noise or the control system's large transient response. Consequently, because algorithmic fault validation remains unscalable, full Verification and Validation (V\&V) operations are still managed by Human-in-the-Loop (HITL) analysis, resulting in an unsustainable manual workload. To automate this essential oversight, we propose Agent-Integrated Verification and Validation (AIVV), a hybrid framework that deploys Large Language Models (LLMs) as a deliberative outer loop. Because rigorous system verification strictly depends on accurate validation, AIVV escalates mathematically flagged anomalies to a role-specialized LLM council. The council agents perform collaborative validation by semantically validating nuisance and true failures based on natural-language (NL) requirements to secure a high-fidelity system-verification baseline. Building on this foundation, the council then performs system verification by assessing post-fault responses against NL operational tolerances, ultimately generating actionable V\&V artifacts, such as gain-tuning proposals. Experiments on a time-series simulator for Unmanned Underwater Vehicles (UUVs) demonstrate that AIVV successfully digitizes the HITL V\&V process, overcoming the limitations of rule-based fault classification and offering a scalable blueprint for LLM-mediated oversight in time-series data domains.
- Abstract(参考訳): ディープラーニングモデルは、通常のデータにおける異常パターンの検出に優れる。
しかし、様々な制御系にまたがる異常分類とスケーラビリティの直接的な解決策は提供されず、しばしばノイズや制御系の大きな過渡応答に起因するノイズ障害と真の欠陥を区別することができない。
その結果、アルゴリズムの故障検証は引き続きスケールできないため、完全な検証と検証(V\&V)操作はHuman-in-the-Loop(HITL)分析によって引き続き管理され、持続不可能な手作業の負荷が発生する。
この本質的な監視を自動化するために,大規模言語モデル(LLM)を検討外ループとしてデプロイするハイブリッドフレームワークであるAgent-Integrated Verification and Validation (AIVV)を提案する。
厳密なシステム検証は正確な検証に厳密に依存するため、AIVは数学的にフラグ付けされた異常をロール特化LDMカウンシルにエスカレートする。
高忠実なシステム検証ベースラインを確保するために、自然言語(NL)要求に基づいてニュアンスと真の失敗を意味的に検証し、協調検証を行う。
この基盤の上に構築された委員会は、NLの運用耐性に対するデフォルト後の応答を評価し、最終的にゲインチューニング提案のような実行可能なV\&Vアーティファクトを生成することによって、システム検証を行う。
無人水中車両(UUV)の時系列シミュレータの実験では、AIVがHITL V\&Vプロセスのデジタル化に成功し、規則に基づく故障分類の限界を克服し、時系列データ領域におけるLLMによる監視のためのスケーラブルな青写真を提供することを示した。
関連論文リスト
- Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Steering and Rectifying Latent Representation Manifolds in Frozen Multi-modal LLMs for Video Anomaly Detection [52.5174167737992]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を特定することを目的としている。
本稿では,MLLMに基づくVADを受動的に読み上げから内部表現を積極的に操り,修正するSteerVADを提案する。
本手法は、トレーニングデータの1%しか必要としないチューニングフリーアプローチにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-27T13:48:50Z) - Execution-State-Aware LLM Reasoning for Automated Proof-of-Vulnerability Generation [36.950993500170014]
本稿では,PoV生成を反復的仮説検証法として再構成するエージェントフレームワークであるDrillAgentを提案する。
我々は、実世界のC/C++脆弱性の大規模なベンチマークであるSEC-bench上でDrillAgentを評価する。
論文 参考訳(メタデータ) (2026-02-14T03:17:27Z) - LLM-Enhanced Reinforcement Learning for Time Series Anomaly Detection [1.1852406625172216]
時系列異常検出は、しばしばスパースラベル、複雑な時間パターン、高価な専門家アノテーションに悩まされる。
本稿では,LL(Reinforcement Learning),VAE(Variational Autoencoder)の強化された動的報酬スケーリング,ラベル伝搬によるアクティブラーニングを併用した,LLM(Large Language Model)に基づく報酬形成機能の統合フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-05T19:33:30Z) - CycleVLA: Proactive Self-Correcting Vision-Language-Action Models via Subtask Backtracking and Minimum Bayes Risk Decoding [60.06899554269808]
サイクロンVLA(CycleVLA)は、VLA(Vision-Language-Action Model)を積極的に自己補正するシステムである。
CycleVLAは、重要なサブタスク遷移ポイントにフラグを付けるプログレス対応のVLAを統合することで、これを実現する。
大規模な実験により、CycleVLAは、よく訓練されたVLAと訓練されていないVLAの両方のパフォーマンスを改善することが示された。
論文 参考訳(メタデータ) (2026-01-05T17:31:01Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文 参考訳(メタデータ) (2025-11-05T18:59:52Z) - DSV: An Alignment Validation Loss for Self-supervised Outlier Model
Selection [23.253175824487652]
自己教師付き学習(SSL)は、内部の監視信号を生成することで様々な問題を解決するのに有効であることが証明されている。
真のラベルを取得するための高いコストに直面している教師なしの異常検出は、SSLの大きな恩恵を受けることができる領域である。
DSV(Discordance and Separability Validation)は,有効拡張HPを用いた高性能検出モデルを選択するための教師なし検証損失である。
論文 参考訳(メタデータ) (2023-07-13T02:45:29Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z) - Efficient Deep Reinforcement Learning Requires Regulating Overfitting [91.88004732618381]
本稿では,高時間差(TD)誤差が深部RLアルゴリズムの性能に悪影響を及ぼす主要な原因であることを示す。
検証TDエラーをターゲットとした簡単なオンラインモデル選択法は,状態ベースDMCおよびGymタスク間で有効であることを示す。
論文 参考訳(メタデータ) (2023-04-20T17:11:05Z) - Active Learning-based Isolation Forest (ALIF): Enhancing Anomaly
Detection in Decision Support Systems [2.922007656878633]
ALIFは一般的な孤立林の軽量な修正であり、他の最先端のアルゴリズムと比較して優れた性能を示した。
提案手法は,現実のシナリオでますます普及しているDSS(Decision Support System)の存在に特に注目されている。
論文 参考訳(メタデータ) (2022-07-08T14:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。