論文の概要: PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents
- arxiv url: http://arxiv.org/abs/2602.01532v1
- Date: Mon, 02 Feb 2026 01:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.840426
- Title: PRISM: Festina Lente Proactivity -- Risk-Sensitive, Uncertainty-Aware Deliberation for Proactive Agents
- Title(参考訳): PRISM:Festina Lenteプロアクティブ--プロアクティブエージェントのリスク感受性・不確実性を考慮した検討
- Authors: Yuxuan Fu, Xiaoyu Tan, Teqi Hao, Chen Zhan, Xihe Qiu,
- Abstract要約: PRISMは、決定論的ゲートとデュアルプロセス推論アーキテクチャを結合する新しいフレームワークである。
フェスティナ・レンテ(ラテン語: "make haste slow")にインスパイアされた私たちは、受け入れ校正されたコスト由来の閾値でゲートする。
ProactiveBenchでは、PRISMは誤報を22.78%減らし、F1を20.14%改善している。
- 参考スコア(独自算出の注目度): 11.440330367799513
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Proactive agents must decide not only what to say but also whether and when to intervene. Many current systems rely on brittle heuristics or indiscriminate long reasoning, which offers little control over the benefit-burden tradeoff. We formulate the problem as cost-sensitive selective intervention and present PRISM, a novel framework that couples a decision-theoretic gate with a dual-process reasoning architecture. At inference time, the agent intervenes only when a calibrated probability of user acceptance exceeds a threshold derived from asymmetric costs of missed help and false alarms. Inspired by festina lente (Latin: "make haste slowly"), we gate by an acceptance-calibrated, cost-derived threshold and invoke a resource-intensive Slow mode with counterfactual checks only near the decision boundary, concentrating computation on ambiguous and high-stakes cases. Training uses gate-aligned, schema-locked distillation: a teacher running the full PRISM pipeline provides dense, executable supervision on unlabeled interaction traces, while the student learns a response policy that is explicitly decoupled from the intervention gate to enable tunable and auditable control. On ProactiveBench, PRISM reduces false alarms by 22.78% and improves F1 by 20.14% over strong baselines. These results show that principled decision-theoretic gating, paired with selective slow reasoning and aligned distillation, yields proactive agents that are precise, computationally efficient, and controllable. To facilitate reproducibility, we release our code, models, and resources at https://prism-festinalente.github.io/; all experiments use the open-source ProactiveBench benchmark.
- Abstract(参考訳): プロアクティブエージェントは、何を言うべきかだけでなく、いつ介入するかを判断しなければならない。
現代のシステムの多くは、不安定なヒューリスティックや不差別な長い推論に依存しており、利益を損なうトレードオフをほとんど制御していない。
コスト感受性の選択的介入として問題を定式化し、二プロセス推論アーキテクチャと決定論的ゲートを結合する新しいフレームワークであるPRISMを提案する。
推測時には、ユーザ受け入れの校正確率が、ミスヘルプの非対称コストと誤警報の閾値を超えた場合にのみ、エージェントが介入する。
フェスティナ・レンテ(ラテン語: "make haste slow")にインスパイアされた我々は、受け入れ基準付き、コスト由来のしきい値でゲートし、リソース集約的なスローモードを起動し、決定境界付近で反ファクトチェックを行い、あいまいなケースと高いケースの計算に集中する。
トレーニングはゲート整列型スキーマロック蒸留を使用する: 完全なPRISMパイプラインを実行する教師は、ラベルのない相互作用トレースの密集した実行可能監視を提供する一方、学生は介入ゲートから明示的に分離された応答ポリシーを学び、調整可能で監査可能な制御を可能にする。
ProactiveBenchでは、PRISMは誤報を22.78%減らし、F1を20.14%改善している。
これらの結果から, 決定論的ゲーティングと選択的緩やかな推論, 整列蒸留を組み合わせ, 精度, 計算効率, 制御可能なプロアクティブエージェントが得られた。
再現性を促進するため、私たちはhttps://prism-festinalente.github.io/でコード、モデル、リソースをリリースしています。
関連論文リスト
- Agentic Uncertainty Quantification [76.94013626702183]
本稿では,言語化された不確実性をアクティブな双方向制御信号に変換する統合されたデュアルプロセスエージェントUQ(AUQ)フレームワークを提案する。
システム1(Uncertainty-Aware Memory, UAM)とシステム2(Uncertainty-Aware Reflection, UAR)は、これらの説明を合理的な手段として利用し、必要な時にのみターゲットの推論時間解決をトリガーする。
論文 参考訳(メタデータ) (2026-01-22T07:16:26Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - E-valuator: Reliable Agent Verifiers with Sequential Hypothesis Testing [7.984665398116918]
ブラックボックス検証器のスコアを偽アラームレートの証明可能な制御で決定ルールに変換する方法であるe-valuatorを導入する。
評価者は、エージェントの軌道のすべてのステップで統計的に有効であるシーケンシャルな仮説テストを開発するために、プロセスからのツールに基づいて構築される。
E-valuatorは6つのデータセットと3つのエージェントをまたいだ他の戦略よりも高い統計的パワーとより良い誤報率制御を提供することを示す。
論文 参考訳(メタデータ) (2025-12-02T05:59:18Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Bidirectional Decoding: Improving Action Chunking via Guided Test-Time Sampling [51.38330727868982]
動作チャンキングが学習者と実証者の間の分岐にどのように影響するかを示す。
動作チャンキングをクローズドループ適応でブリッジするテスト時間推論アルゴリズムである双方向デコーディング(BID)を提案する。
提案手法は、7つのシミュレーションベンチマークと2つの実世界のタスクにまたがって、最先端の2つの生成ポリシーの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-30T15:39:34Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。