論文の概要: Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes
- arxiv url: http://arxiv.org/abs/2603.16207v1
- Date: Tue, 17 Mar 2026 07:38:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.15229
- Title: Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes
- Title(参考訳): アクティブリジェクションと接地実行: 安全かつ効率的なAIoTスマートホームのためのデュアルステージインテント分析パラダイム
- Authors: Xinxin Jin, Zhengwei Ni, Zhengguo Sheng, Victor C. M. Leung,
- Abstract要約: 本稿では,低レベルの物理的実行から高レベルのユーザ意図理解を分離するためのDual-Stage Intent-Aware (DS-IA)フレームワークを提案する。
試験の結果、DS-IAは58.56%(ベースラインを28%以上上回る)のエクサクトマッチ(EM)を達成し、無効命令の拒否率を87.04%に改善した。
- 参考スコア(独自算出の注目度): 37.92248202525651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) transition from information providers to embodied agents in the Internet of Things (IoT), they face significant challenges regarding reliability and interaction efficiency. Direct execution of LLM-generated commands often leads to entity hallucinations (e.g., trying to control non-existent devices). Meanwhile, existing iterative frameworks (e.g., SAGE) suffer from the Interaction Frequency Dilemma, oscillating between reckless execution and excessive user questioning. To address these issues, we propose a Dual-Stage Intent-Aware (DS-IA) Framework. This framework separates high-level user intent understanding from low-level physical execution. Specifically, Stage 1 serves as a semantic firewall to filter out invalid instructions and resolve vague commands by checking the current state of the home. Stage 2 then employs a deterministic cascade verifier-a strict, step-by-step rule checker that verifies the room, device, and capability in sequence-to ensure the action is actually physically possible before execution. Extensive experiments on the HomeBench and SAGE benchmarks demonstrate that DS-IA achieves an Exact Match (EM) rate of 58.56% (outperforming baselines by over 28%) and improves the rejection rate of invalid instructions to 87.04%. Evaluations on the SAGE benchmark further reveal that DS-IA resolves the Interaction Frequency Dilemma by balancing proactive querying with state-based inference. Specifically, it boosts the Autonomous Success Rate (resolving tasks without unnecessary user intervention) from 42.86% to 71.43%, while maintaining high precision in identifying irreducible ambiguities that truly necessitate human clarification. These results underscore the framework's ability to minimize user disturbance through accurate environmental grounding.
- Abstract(参考訳): 大規模言語モデル(LLM)が情報提供者からIoT(Internet of Things)のエージェントへと移行するにつれ、信頼性とインタラクション効率に関する大きな課題に直面している。
LLM生成コマンドの直接実行は、エンティティ幻覚(例えば、存在しないデバイスを制御しようとする)につながることが多い。
一方、既存の反復的フレームワーク(例:SAGE)は、無謀な実行と過剰なユーザ質問の間を揺らぎながら、Interaction Frequency Dilemmaに悩まされている。
これらの問題に対処するため,我々はDual-Stage Intent-Aware (DS-IA) フレームワークを提案する。
このフレームワークは、高レベルのユーザ意図の理解と低レベルの物理実行を分離する。
具体的には、ステージ1がセマンティックファイアウォールとして機能し、不正な命令をフィルタリングし、家の状態をチェックしてあいまいなコマンドを解決します。
次にステージ2では、決定論的カスケード検証器(厳格でステップバイステップのルールチェッカー)を使用して、実行前にアクションが実際に物理的に可能であることを確認する。
HomeBench と SAGE ベンチマークの大規模な実験では、DS-IA は 58.56% (ベースラインを28%以上上回る) で、無効命令の拒否率を87.04%改善している。
SAGEベンチマークの評価により、DS-IAは状態ベース推論とプロアクティブクエリのバランスをとることで、インタラクション周波数ジレンマを解消することが明らかになった。
具体的には、自律的な成功率(不要なユーザ介入なしでのタスクの解決)を42.86%から71.43%に引き上げると同時に、人間の明確化を本当に必要とする既約曖昧さの特定において高い精度を維持している。
これらの結果は, 正確な環境接地を通じて, 利用者の混乱を最小限に抑えるフレームワークの能力を明らかにするものである。
関連論文リスト
- AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - Reasoning While Asking: Transforming Reasoning Large Language Models from Passive Solvers to Proactive Inquirers [41.58256327940237]
Proactive Interactive Reasoningは、大規模言語モデルからProactive Inquirerに変換する。
PIRは、ユーザと直接対話することで、前提レベルと意図レベルの不確実性を目標とします。
数学的推論、コード生成、文書編集の実験は、PIRが強いベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2026-01-29T18:56:12Z) - Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - ReasAlign: Reasoning Enhanced Safety Alignment against Prompt Injection Attack [52.17935054046577]
本稿では、間接的インジェクション攻撃に対する安全性アライメントを改善するためのモデルレベルのソリューションであるReasAlignを提案する。
ReasAlignには、ユーザクエリの分析、競合する命令の検出、ユーザの意図したタスクの継続性を維持するための構造化された推論ステップが組み込まれている。
論文 参考訳(メタデータ) (2026-01-15T08:23:38Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - Abduct, Act, Predict: Scaffolding Causal Inference for Automated Failure Attribution in Multi-Agent Systems [20.846301581161978]
マルチエージェントシステムにおける障害帰属は、批判的だが未解決の課題である。
現在の手法では、これを長い会話ログ上のパターン認識タスクとして扱う。
A2P Scaffoldingは、パターン認識から構造化因果推論タスクへの障害帰属を変換する。
論文 参考訳(メタデータ) (2025-09-12T16:51:15Z) - Automatic Failure Attribution and Critical Step Prediction Method for Multi-Agent Systems Based on Causal Inference [8.823529310904162]
マルチエージェントシステム(MAS)は複雑なタスクの自動化に不可欠であるが、その実践的展開は障害帰属の課題によって妨げられている。
マルチグラニュラリティ因果推論に基づくMASのための最初の失敗帰属フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-10T15:22:00Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。