論文の概要: Human-Centric Open-Future Task Discovery: Formulation, Benchmark, and Scalable Tree-Based Search
- arxiv url: http://arxiv.org/abs/2511.18929v1
- Date: Mon, 24 Nov 2025 09:33:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.137391
- Title: Human-Centric Open-Future Task Discovery: Formulation, Benchmark, and Scalable Tree-Based Search
- Title(参考訳): 人中心オープンフューチャタスク発見:定式化,ベンチマーク,拡張性木に基づく探索
- Authors: Zijian Song, Xiaoxin Lin, Tao Pu, Zhenlong Yuan, Guangrun Wang, Liang Lin,
- Abstract要約: 我々は,人間中心のオープンフューチャータスク発見(HOTD)の問題を定式化し,複数の課題にまたがる人的労力を減らすタスクの特定に焦点をあてる。
本研究では,HOTD-Benchを提案する。HOTD-Benchは,2K以上の実世界のビデオ,半自動アノテーションパイプライン,オープンセットの将来の評価に適したシミュレーションベースのプロトコルである。
また,多エージェントシステムによる複雑な推論を分解し,スケーラブルな探索木モジュールによる推論プロセスを構築するCMAST(Collaborative Multi-Agent Search Tree)を提案する。
- 参考スコア(独自算出の注目度): 55.96277616578607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in robotics and embodied AI is largely driven by Large Multimodal Models (LMMs). However, a key challenge remains underexplored: how can we advance LMMs to discover tasks that directly assist humans in open-future scenarios, where human intentions are highly concurrent and dynamic. In this work, we formalize the problem of Human-centric Open-future Task Discovery (HOTD), focusing particularly on identifying tasks that reduce human effort across multiple plausible futures. To facilitate this study, we propose an HOTD-Bench, which features over 2K real-world videos, a semi-automated annotation pipeline, and a simulation-based protocol tailored for open-set future evaluation. Additionally, we propose the Collaborative Multi-Agent Search Tree (CMAST) framework, which decomposes the complex reasoning through a multi-agent system and structures the reasoning process through a scalable search tree module. In our experiments, CMAST achieves the best performance on the HOTD-Bench, significantly surpassing existing LMMs. It also integrates well with existing LMMs, consistently improving performance.
- Abstract(参考訳): ロボット工学とAIの具体化の最近の進歩は、主にLMM(Large Multimodal Models)によって推進されている。
しかし、LMMを前進させて、人間の意図が高度に並列かつダイナミックなオープンフューチャーシナリオにおいて、人間を直接支援するタスクをどうやって発見できるかという、大きな課題はまだ未解決のままである。
本研究では,人間中心型オープンフューチャータスク発見(HOTD)の課題を定式化し,特に,複数の課題にまたがる人的労力を減らすタスクの特定に焦点をあてる。
本研究では,HOTD-Benchを提案する。HOTD-Benchは,2K以上の実世界のビデオ,半自動アノテーションパイプライン,オープンセットの将来の評価に適したシミュレーションベースのプロトコルである。
さらに,多エージェントシステムによる複雑な推論を分解し,スケーラブルな探索木モジュールによる推論プロセスを構築する,協調型マルチエージェント探索木(CMAST)フレームワークを提案する。
我々の実験では、CMASTはHOTD-Bench上で最高の性能を達成し、既存のLMMをはるかに上回っている。
また、既存のLMMとうまく統合し、パフォーマンスを継続的に改善します。
関連論文リスト
- SFR-DeepResearch: Towards Effective Reinforcement Learning for Autonomously Reasoning Single Agents [93.26456498576181]
本稿では,ディープリサーチのためのネイティブ自律単エージェントモデルの開発に焦点をあてる。
我々の最良の変種であるSFR-DR-20Bは、HumanityのLast Examベンチマークで28.7%に達する。
論文 参考訳(メタデータ) (2025-09-08T02:07:09Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - Human-Robot Collaborative Minimum Time Search through Sub-priors in Ant Colony Optimization [3.04478108783992]
本稿では,最小時間探索(MTS)課題を解決するため,ACOメタヒューリスティックの拡張を提案する。
提案したモデルは2つの主要ブロックから構成される。第1のモデルは畳み込みニューラルネットワーク(CNN)で、オブジェクトがセグメント化された画像からどこにあるかという事前確率を提供する。
2つ目は、サブプライアのMTS-ACOアルゴリズム(SP-MTS-ACO)である。
論文 参考訳(メタデータ) (2024-10-01T08:57:28Z) - MMSearch: Benchmarking the Potential of Large Models as Multi-modal Search Engines [95.48317207225378]
大規模マルチモーダルモデル(LMM)は、AI検索エンジンにおいて目覚ましい進歩を遂げた。
しかし、AI検索エンジンとして機能するかどうかはまだ未定だ。
まず,マルチモーダル検索機能を備えた任意のLMMに対して,センシティブなパイプラインMMSearch-Engineを設計する。
論文 参考訳(メタデータ) (2024-09-19T17:59:45Z) - VisualAgentBench: Towards Large Multimodal Models as Visual Foundation Agents [50.12414817737912]
大規模マルチモーダルモデル(LMM)は、人工知能の新たな時代を迎え、言語と視覚の融合によって、高い能力を持つVisual Foundation Agentを形成する。
既存のベンチマークでは、複雑な実世界の環境でのLMMの可能性を十分に証明できない。
VisualAgentBench (VAB) は、視覚基礎エージェントとしてLMMを訓練し評価するための先駆的なベンチマークである。
論文 参考訳(メタデータ) (2024-08-12T17:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。