論文の概要: AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents
- arxiv url: http://arxiv.org/abs/2606.05557v1
- Date: Thu, 04 Jun 2026 01:11:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-06 06:55:34.62362
- Title: AURA: Intent-Directed Probing for Implicit-Need Surfacing in Situated LLM Agents
- Title(参考訳): AURA:LLMエージェントの意図的探究
- Authors: Yang Li, Jiaxiang Liu, Jiang Cai, Mingkun Xu,
- Abstract要約: AURAは、シーン認識とIntentFrameを生成するツール使用の間の推論ステップを挿入する。
AURAはReActスタイルの探索よりも暗黙的なカバレッジを改善している。
このコントローラーは、プライバシに敏感なスライスでプローブを82%減らし、禁じられたツール違反をゼロにする。
- 参考スコア(独自算出の注目度): 7.158614088800619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A situated query like "where is Lin Wei?" often encodes more than its literal content: the user may also want to know whether Lin Wei is free, in a good mood, or worth interrupting now. Standard tool-use agents answer the literal question and stop. AURA inserts an inference step between scene perception and tool use that produces an IntentFrame: a structured estimate of the implicit need with a scalar gap score that controls per-query probe budget and tool selection. On a 100-query four-scene implicit-intent benchmark, AURA improves implicit-need coverage over ReAct-style probing (Delta = +0.07, p < 10^-6); three of four scenes are individually significant, the gain reproduces on a second backbone, and a prompt ablation attributes the lift to gap calibration rather than answer memorisation. On factual lookup the controller trades raw accuracy for 82% fewer probes and zero forbidden-tool violations on a privacy-sensitive slice; scope conditions are detailed in Limitations. Code, simulator, and benchmark are released at https://github.com/innovation64/AURA.
- Abstract(参考訳): Lin Wei" のような場所にあるクエリは、リテラル以上のコンテンツをエンコードする。Lin Weiは無料なのか、気分が良いのか、現在中断する価値があるのかを知ることもできる。
標準ツール使用エージェントはリテラル質問に答えて停止する。
AURAは、シーン認識とIntentFrameを生成するツール利用の間の推論ステップを挿入する。
AURAは100-query 4-sceneの暗黙的暗黙的ベンチマークで、ReActスタイルのプローブ(Delta = +0.07, p < 10^-6)に対する暗黙的なカバレッジを改善している。
実際のルックアップでは、コントローラが生の精度を82%減らし、プライバシーに敏感なスライスを禁止したツール違反をゼロにする。
コード、シミュレータ、ベンチマークはhttps://github.com/innovation64/AURAで公開されている。
関連論文リスト
- What to Test Next: Interpretable Coverage Gap Discovery in Driving VLMs [52.50210189669399]
視覚言語モデル(VLM)を駆動するには,操作設計領域(ODD)が定義する様々な条件のシーンを正確に理解する必要がある
SliceScorerは、欠落したスライス推薦のための決定論的スコアリングルールである。
SliceNavは, 従来のスライス発見法よりも, 高リスクカバレッジギャップを効果的に表面化することを示す。
論文 参考訳(メタデータ) (2026-06-01T03:18:01Z) - Overeager Coding Agents: Measuring Out-of-Scope Actions on Benign Tasks [40.270213696031625]
OverEager-Genは、良質なタスクの振る舞いをオーバーイーガーするベンチマークである。
クロード・コードでは、同意宣言を削除するだけで、オーバーイーガー率は0.0%から17.1%に上昇する。
オーバーイーガー・ジェン(OverEager-Gen)は、入場前に各シナリオの識別力を認定する。
論文 参考訳(メタデータ) (2026-05-18T16:00:41Z) - SWE-PRBench: Benchmarking AI Code Review Quality Against Pull Request Feedback [2.626039639665796]
SWE-PRBenchは、AIコードレビューの品質を評価するための、人間による注釈付き根拠真理による350のプルリクエストのベンチマークである。
8つのフロンティアモデルでは、差分のみの設定で人間のフラッグされた問題の15~31%しか検出できない。
論文 参考訳(メタデータ) (2026-03-27T07:24:26Z) - Proactive Rejection and Grounded Execution: A Dual-Stage Intent Analysis Paradigm for Safe and Efficient AIoT Smart Homes [37.92248202525651]
本稿では,低レベルの物理的実行から高レベルのユーザ意図理解を分離するためのDual-Stage Intent-Aware (DS-IA)フレームワークを提案する。
試験の結果、DS-IAは58.56%(ベースラインを28%以上上回る)のエクサクトマッチ(EM)を達成し、無効命令の拒否率を87.04%に改善した。
論文 参考訳(メタデータ) (2026-03-17T07:38:39Z) - OpenSec: Measuring Incident Response Agent Calibration Under Adversarial Evidence [0.0]
本稿では,防衛インシデント対応エージェントの評価を行う,二重制御強化学習環境であるOpenSecを紹介する。
静的な能力ベンチマークとは異なり、OpenSecは敵のエビデンスの下で世界状態を変える封じ込めアクションをスコアする。
GPT-5.2、Gemini 3、DeepSeekは100%のエピソードを90-97%の偽陽性率で封じ込めている。
論文 参考訳(メタデータ) (2026-01-28T22:12:54Z) - NeuroFilter: Privacy Guardrails for Conversational LLM Agents [50.75206727081996]
本研究は,エージェント型大規模言語モデル(LLM)のプライバシを強制する際の計算上の課題に対処する。
NeuroFilterは、標準違反をモデルのアクティベーション空間における単純な方向にマッピングすることで、コンテキスト整合性を運用するガードレールフレームワークである。
7Bから70Bパラメータのモデルをカバーする15万以上のインタラクションに対する包括的な評価は、NeuroFilterの強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2026-01-21T05:16:50Z) - Reading Between the Lines: Abstaining from VLM-Generated OCR Errors via Latent Representation Probes [79.36545159724703]
隠れ状態や注目パターンの軽量プローブを学習するためのLRP(Latent Representation Probing)を提案する。
LRPは、ベストベースラインよりも吸音精度を7.6%向上させる。
これにより、デプロイメント対応AIシステムを構築するための原則化されたフレームワークが確立される。
論文 参考訳(メタデータ) (2025-11-25T00:24:42Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - AutoBencher: Towards Declarative Benchmark Construction [74.54640925146289]
AutoBencherを使って、数学、多言語性、知識、安全性のためのデータセットを作成しています。
AutoBencherのスケーラビリティにより、詳細なカテゴリ知識をテストでき、既存のベンチマークよりも22%のモデルエラー(難易度)を誘発するデータセットを作成することができる。
論文 参考訳(メタデータ) (2024-07-11T10:03:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。