論文の概要: Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents
- arxiv url: http://arxiv.org/abs/2606.03236v1
- Date: Tue, 02 Jun 2026 06:54:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.815634
- Title: Perceive Before Reasoning: A Pre-Reasoning Perception Framework for Efficient and Reliable Proactive Mobile Agents
- Title(参考訳): 推論前知覚:効率的で信頼性の高い移動体エージェントのための事前推論型知覚フレームワーク
- Authors: Zhijie Ding, Weinan Hong, Zicheng Zhu, Lei Li, Dezhi Kong, Hao Wang, Peng Zhou, Xuchu Jiang, Jiaming Xu,
- Abstract要約: 推論の前に知覚に基づく2段階のフレームワークであるtextbf Pre-Reasoning Perception Framework (PRPF) を提案する。
PRPFは、介入ゲーティングとコンテキスト圧縮のための軽量なMultimodal Proactive Perceptor (MPP)を導入し、介入が保証された場合にのみProactive Agent Reasoner (PAR)を起動する。
ProactiveMobileベンチマークの実験では、PRPFは成功率(SR)とProactiveMobileベースラインでの推論効率を改善しつつ、偽トリガレート(FTR)を大幅に低減することが示された。
- 参考スコア(独自算出の注目度): 17.725926482772227
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have substantially advanced mobile agents, yet proactive mobile assistance remains challenging because agents must decide \emph{when} to intervene before determining \emph{how} to assist. Existing systems often implement these two decisions within a unified MLLM-based pipeline, leading to goal misalignment between conservative intervention filtering and comprehensive assistance generation, as well as redundant inference when the agent should remain silent. To address these limitations, we propose the \textbf{Pre-Reasoning Perception Framework (PRPF)}, a two-stage framework built on perceiving before reasoning. PRPF introduces a lightweight Multimodal Proactive Perceptor (MPP) for intervention gating and context compression, and activates the Proactive Agent Reasoner (PAR) only when intervention is warranted. Experiments on the ProactiveMobile benchmark show that PRPF substantially reduces false trigger rates (FTR) while improving success rates (SR) and inference efficiency over the ProactiveMobile baseline.
- Abstract(参考訳): MLLM(Multimodal large language model)は、かなり先進的なモバイルエージェントを持つが、エージェントが介入を決断し、援助を指示する前には、エージェントが介入しなければならないため、アクティブなモバイルアシストは依然として困難である。
既存のシステムはMLLMベースのパイプラインでこれらの2つの決定を実行することが多く、保守的な介入フィルタリングと包括的な援助生成の相違と、エージェントが沈黙し続けるべき時の冗長な推論を目標とする。
これらの制約に対処するために、推論の前に知覚に基づいて構築された2段階のフレームワークである \textbf{Pre-Reasoning Perception Framework (PRPF) を提案する。
PRPFは、介入ゲーティングとコンテキスト圧縮のための軽量なMultimodal Proactive Perceptor (MPP)を導入し、介入が保証された場合にのみProactive Agent Reasoner (PAR)を起動する。
ProactiveMobileベンチマークの実験では、PRPFは成功率(SR)とProactiveMobileベースラインでの推論効率を改善しつつ、偽トリガレート(FTR)を大幅に低減することが示された。
関連論文リスト
- Latent Action Reparameterization for Efficient Agent Inference [56.42014061367112]
本稿では,複数のステップのセマンティックな振る舞いに対応する,コンパクトな潜在行動空間を学習するフレームワークを提案する。
手作りのマクロや階層型コントローラとは異なり、潜在動作はエージェントの軌跡から学習され、モデルに直接統合される。
論文 参考訳(メタデータ) (2026-05-18T16:07:44Z) - Harnessing LLM Agents with Skill Programs [58.356514745548026]
HASPは、実行可能なプログラム関数(PF)にスキルをアップグレードする新しいフレームワークです。
PFは障害が発生しやすい状態を起動し、次のアクションを変更したり、修正コンテキストを注入する実行可能なガードレールとして機能する。
HASPは、Web検索、数学推論、コーディングタスクにおいて、トレーニング不要とトレーニングベースの両方の手法と比較して、大幅に向上している。
論文 参考訳(メタデータ) (2026-05-18T01:35:11Z) - FAMA: Failure-Aware Meta-Agentic Framework for Open-Source LLMs in Interactive Tool Use Environments [60.3427704389541]
大規模言語モデルは、自律エージェントの意思決定コアとして、ますます多くデプロイされている。
しかし、会話のベンチマークでは、誤った意思決定のカスケード効果のために、これらのエージェントは頻繁に失敗する。
これらの課題に対処するために、Failure-Aware Meta-Agenticフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-28T02:21:53Z) - Adaptive Stopping for Multi-Turn LLM Reasoning [19.992892941191577]
マルチターン推論のためのコンフォーマル予測(MiCP)を用いたマルチターン言語モデルを提案する。
MiCPはターン毎に異なるエラー予算を割り当て、全体的なカバレッジ保証を維持しながらモデルが早期に停止することを可能にする。
適応RAGとReActでMICPを実証し、シングルホップとマルチホップの問合せベンチマークの両方で対象範囲を達成した。
論文 参考訳(メタデータ) (2026-04-01T21:22:19Z) - ICON: Indirect Prompt Injection Defense for Agents based on Inference-Time Correction [24.416258744287166]
ICONは、タスクの連続性を維持しながら攻撃を中和する、調査と軽減のためのフレームワークである。
ICONは競争力のある0.4%のASRを達成し、商業グレード検出器と一致し、50%以上のタスクユーティリティーゲインを得る。
論文 参考訳(メタデータ) (2026-02-24T09:13:05Z) - DLLM-Searcher: Adapting Diffusion Large Language Model for Search Agents [31.08047797205678]
拡散大言語モデル(dLLLLM)は、本質的に並列な復号化機構とフレキシブルな生成パラダイムによって実現され、独特な効率性を示す。
サーチエージェントの急速な進歩にもかかわらず、その実践的展開は、1)チャレンジと呼ばれる基本的な制限によって制限される: マルチラウンド推論、ツール呼び出し、ツール応答の連続実行。
本稿では,dLLMに基づく検索エージェントの最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-03T09:12:08Z) - SAND: Boosting LLM Agents with Self-Taught Action Deliberation [54.48979740613828]
大規模言語モデル(LLM)エージェントは、通常、ReActスタイルの専門家軌道の教師付き微調整や、ペアのロールアウトよりも好みの最適化で調整される。
本稿では,自己学習型アクチオN審議(SAND)フレームワークを提案する。
SANDは、初期教師付き微調整よりも平均20%改善し、また最先端のエージェントチューニングアプローチより優れている。
論文 参考訳(メタデータ) (2025-07-10T05:38:15Z) - Debate Only When Necessary: Adaptive Multiagent Collaboration for Efficient LLM Reasoning [8.800516398660069]
大規模言語モデル(LLM)の推論能力を高めるための,有望なフレームワークとして,マルチエージェントコラボレーションが登場した。
本稿では,エージェントの初期応答の信頼性スコアに基づいて,議論を選択的に活性化する適応型マルチエージェント討論フレームワークであるDebate Only When Necessary (DOWN)を提案する。
ダウンは最大6倍の効率向上を実現し、既存のメソッドのパフォーマンスを保留する。
論文 参考訳(メタデータ) (2025-04-07T13:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。