論文の概要: ProAct: A Benchmark and Multimodal Framework for Structure-Aware Proactive Response
- arxiv url: http://arxiv.org/abs/2602.03430v2
- Date: Wed, 04 Feb 2026 03:41:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.136248
- Title: ProAct: A Benchmark and Multimodal Framework for Structure-Aware Proactive Response
- Title(参考訳): ProAct: 構造認識型プロアクティブ応答のためのベンチマークとマルチモーダルフレームワーク
- Authors: Xiaomeng Zhu, Fengming Zhu, Weijie Zhou, Ye Tian, Zhenlin Hu, Yufei Huang, Yuchun Guo, Xinyu Wu, Zhengyou Zhang, Fangzhen Lin, Xuantang Xiong,
- Abstract要約: ProAct-75は、さまざまなドメインにわたるプロアクティブエージェントのトレーニングと評価のために設計されたベンチマークである。
我々のデータセットは、明示的なタスクグラフに富んだ91,581のステップレベルのアノテーションを備えている。
MLLM(Multimodal Large Language Model)を用いた参照ベースラインであるProAct-Helperを提案する。
- 参考スコア(独自算出の注目度): 20.913342340957904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While passive agents merely follow instructions, proactive agents align with higher-level objectives, such as assistance and safety by continuously monitoring the environment to determine when and how to act. However, developing proactive agents is hindered by the lack of specialized resources. To address this, we introduce ProAct-75, a benchmark designed to train and evaluate proactive agents across diverse domains, including assistance, maintenance, and safety monitoring. Spanning 75 tasks, our dataset features 91,581 step-level annotations enriched with explicit task graphs. These graphs encode step dependencies and parallel execution possibilities, providing the structural grounding necessary for complex decision-making. Building on this benchmark, we propose ProAct-Helper, a reference baseline powered by a Multimodal Large Language Model (MLLM) that grounds decision-making in state detection, and leveraging task graphs to enable entropy-driven heuristic search for action selection, allowing agents to execute parallel threads independently rather than mirroring the human's next step. Extensive experiments demonstrate that ProAct-Helper outperforms strong closed-source models, improving trigger detection mF1 by 6.21%, saving 0.25 more steps in online one-step decision, and increasing the rate of parallel actions by 15.58%.
- Abstract(参考訳): 受動的エージェントは単に指示に従うだけであるが、プロアクティブエージェントは、環境を継続的に監視し、いつ、どのように行動するかを決定することで、援助や安全といったより高度な目的と整合する。
しかし、プロアクティブエージェントの開発は、専門資源の不足によって妨げられている。
ProAct-75は,支援,メンテナンス,安全監視など,さまざまな領域にわたるプロアクティブエージェントのトレーニングと評価を目的としたベンチマークである。
75のタスクに、明示的なタスクグラフに富んだ91,581のステップレベルのアノテーションが特徴です。
これらのグラフはステップ依存性と並列実行可能性をエンコードし、複雑な意思決定に必要な構造的基盤を提供します。
本稿では,マルチモーダル大規模言語モデル (MLLM) をベースとした参照ベースラインであるProAct-Helperを提案する。これは状態検出における意思決定を基盤とし,タスクグラフを活用して,エントロピー駆動型ヒューリスティック検索によるアクション選択を実現し,エージェントが次のステップを反映するのではなく,並列スレッドを独立に実行できるようにする。
大規模な実験により、ProAct-Helperは強力なクローズドソースモデルより優れ、トリガー検出mF1が6.21%向上し、オンラインワンステップ決定における0.25以上のステップを節約し、並列アクションの速度が15.58%向上した。
関連論文リスト
- Anticipatory Planning for Multimodal AI Agents [77.62643381558613]
予測推論を明示的に訓練する2段階強化学習フレームワークであるTraceR1を紹介する。
TraceR1は、オンラインコンピュータ使用、オフラインコンピュータ使用ベンチマーク、マルチモーダルツール使用推論タスクを含む、7つのベンチマークで評価されている。
以上の結果から,予測軌道推論は,複雑な実環境において効果的に推論,計画,行動が可能なマルチモーダルエージェント構築の鍵となる原理であることが示唆された。
論文 参考訳(メタデータ) (2026-03-17T16:55:11Z) - ProactiveMobile: A Comprehensive Benchmark for Boosting Proactive Intelligence on Mobile Devices [17.39388308538324]
本稿では,プロアクティブなモバイルエージェント開発のためのベンチマークであるProactiveMobileを紹介する。
プロアクティブタスクは、デバイス上のコンテキスト信号の4次元にわたる潜在ユーザ意図を推測するものとして形式化されている。
このベンチマークは成功率19.15%で、実験ではo1 (15.71%) と GPT-5 (7.39%) を上回っている。
論文 参考訳(メタデータ) (2026-02-25T12:32:37Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Proactive Agent: Shifting LLM Agents from Reactive Responses to Active Assistance [95.03771007780976]
我々は、人間の指示なしにタスクを予測および開始できるプロアクティブエージェントを開発するという課題に取り組む。
まず,実世界の人的活動を収集し,前向きなタスク予測を生成する。
これらの予測は、ヒトのアノテータによって受け入れられるか拒否されるかのどちらかとしてラベル付けされる。
ラベル付きデータは、人間の判断をシミュレートする報酬モデルをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-10-16T08:24:09Z) - Watch Every Step! LLM Agent Learning via Iterative Step-Level Process Refinement [50.481380478458945]
反復的なステップレベルプロセスリファインメント(IPR)フレームワークは、エージェントトレーニングを強化するためのステップバイステップのガイダンスを提供する。
3つの複雑なエージェントタスクに関する我々の実験は、我々のフレームワークが様々な強力なベースラインより優れていることを示した。
論文 参考訳(メタデータ) (2024-06-17T03:29:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。