論文の概要: ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation
- arxiv url: http://arxiv.org/abs/2602.01709v2
- Date: Tue, 03 Feb 2026 03:19:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 13:28:03.727972
- Title: ARTIS: Agentic Risk-Aware Test-Time Scaling via Iterative Simulation
- Title(参考訳): ARTIS:反復シミュレーションによるエージェント的リスク認識テストタイムスケーリング
- Authors: Xingshan Zeng, Lingzhi Wang, Weiwen Liu, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu,
- Abstract要約: ARTIS(Agenic Risk-Aware Test-Time Scaling via Iterative Simulation)は、コミットメントから探索を分離するフレームワークである。
LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮していることを示す。
本稿では,障害発生行動の忠実度を強調するリスク認識ツールシミュレータを提案する。
- 参考スコア(独自算出の注目度): 72.78362530982109
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current test-time scaling (TTS) techniques enhance large language model (LLM) performance by allocating additional computation at inference time, yet they remain insufficient for agentic settings, where actions directly interact with external environments and their effects can be irreversible and costly. We propose ARTIS, Agentic Risk-Aware Test-Time Scaling via Iterative Simulation, a framework that decouples exploration from commitment by enabling test-time exploration through simulated interactions prior to real-world execution. This design allows extending inference-time computation to improve action-level reliability and robustness without incurring environmental risk. We further show that naive LLM-based simulators struggle to capture rare but high-impact failure modes, substantially limiting their effectiveness for agentic decision making. To address this limitation, we introduce a risk-aware tool simulator that emphasizes fidelity on failure-inducing actions via targeted data generation and rebalanced training. Experiments on multi-turn and multi-step agentic benchmarks demonstrate that iterative simulation substantially improves agent reliability, and that risk-aware simulation is essential for consistently realizing these gains across models and tasks.
- Abstract(参考訳): 現在のテスト時間スケーリング(TTS)技術は、推論時にさらなる計算を割り当てることで、大規模言語モデル(LLM)のパフォーマンスを向上させるが、エージェント的な設定では不十分であり、アクションが直接外部環境と相互作用し、その効果は不可逆的でコストがかかる。
実世界の実行に先立って、シミュレーションによるテスト時間探索を可能にすることによって、コミットメントから探索を分離するフレームワークであるARTISを提案する。
この設計により、環境リスクを招くことなく、推論時の計算を拡張して、アクションレベルの信頼性と堅牢性を向上させることができる。
さらに, LLMをベースとした簡易シミュレータは, 希少かつ高インパクトな障害モードの捕捉に苦慮し, エージェントによる意思決定の有効性を著しく制限していることを示す。
この制限に対処するために、ターゲットデータ生成と再バランストレーニングによる障害誘発動作の忠実度を強調するリスク認識ツールシミュレータを導入する。
マルチターンおよびマルチステップエージェントベンチマークの実験では、反復シミュレーションがエージェントの信頼性を大幅に改善し、モデルやタスク間でこれらの利得を一貫して実現するためにリスク認識シミュレーションが不可欠であることが示されている。
関連論文リスト
- AgentCyTE: Leveraging Agentic AI to Generate Cybersecurity Training & Experimentation Scenarios [0.19999259391104388]
本稿では,大規模言語モデルと決定論的・スキーマ制約付きネットワークエミュレーションを統合したフレームワークであるAgentCyTEを提案する。
AgentCyTEはシナリオの結果を観察し、正確性を検証し、リアリズムと一貫性を反復的に強化する。
論文 参考訳(メタデータ) (2025-10-29T05:44:12Z) - AL-SPCE -- Reliability analysis for nondeterministic models using stochastic polynomial chaos expansions and active learning [0.0]
多くの実世界のシステムは固有のランダム性を示し、出力がランダム変数であるシミュレータを必要とする。
モンテカルロ法はこれを処理できるが、計算コストが高いことはしばしば禁止される。
本研究は,エミュレータを用いた信頼性解析の計算負担を軽減するために,能動的学習フレームワークを導入する。
論文 参考訳(メタデータ) (2025-07-06T22:07:57Z) - RIFT: Group-Relative RL Fine-Tuning for Realistic and Controllable Traffic Simulation [13.319344167881383]
データ駆動シミュレーターにおいて、模擬学習事前学習を行う2段階のAV中心シミュレーションフレームワークを導入する。
次に、物理に基づくシミュレータで微調整を学習し、スタイルレベルの制御性を向上する。
微調整段階において,新しいグループ関連RL微調整戦略であるRIFTを提案する。
論文 参考訳(メタデータ) (2025-05-06T09:12:37Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - MIBP-Cert: Certified Training against Data Perturbations with Mixed-Integer Bilinear Programs [50.41998220099097]
トレーニング中のデータエラー、汚職、中毒攻撃は、現代のAIシステムの信頼性に大きな脅威をもたらす。
混合整数双線形プログラミング(MIBP)に基づく新しい認証手法MIBP-Certを紹介する。
摂動データや操作データを通じて到達可能なパラメータの集合を計算することで、可能なすべての結果を予測することができ、堅牢性を保証することができる。
論文 参考訳(メタデータ) (2024-12-13T14:56:39Z) - Active Sequential Posterior Estimation for Sample-Efficient Simulation-Based Inference [12.019504660711231]
逐次的神経後部推定(ASNPE)を導入する。
ASNPEは、シミュレーションパラメータ候補の効用を基礎となる確率モデルに推定するために、推論ループにアクティブな学習スキームをもたらす。
提案手法は,大規模実世界の交通ネットワークにおいて,高度に調整されたベンチマークと最先端の後方推定手法より優れる。
論文 参考訳(メタデータ) (2024-12-07T08:57:26Z) - GraphSCENE: On-Demand Critical Scenario Generation for Autonomous Vehicles in Simulation [11.896059467313668]
本研究では,多様なトラフィックシナリオに対応する動的時間的シーングラフをオンデマンドで生成し,ユーザ定義の好みに合わせて作成する手法を提案する。
時間的グラフニューラルネットワーク(GNN)モデルは、実世界の相互作用パターンによって導かれる、エゴ・車両エージェントと静的構造の関係を予測することを学習する。
予測されたシナリオをシミュレーションでレンダリングし、AVエージェントのテスト環境としての有効性をさらに実証する。
論文 参考訳(メタデータ) (2024-10-17T13:02:06Z) - SAFE-SIM: Safety-Critical Closed-Loop Traffic Simulation with Diffusion-Controllable Adversaries [94.84458417662407]
制御可能なクローズドループ安全クリティカルシミュレーションフレームワークであるSAFE-SIMを紹介する。
提案手法は,1)現実の環境を深く反映した現実的な長距離安全クリティカルシナリオの生成,2)より包括的でインタラクティブな評価のための制御可能な敵行動の提供,の2つの利点をもたらす。
複数のプランナにまたがるnuScenesとnuPlanデータセットを使用して、我々のフレームワークを実証的に検証し、リアリズムと制御性の両方の改善を実証した。
論文 参考訳(メタデータ) (2023-12-31T04:14:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。