論文の概要: Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
- arxiv url: http://arxiv.org/abs/2505.21457v1
- Date: Tue, 27 May 2025 17:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.830454
- Title: Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO
- Title(参考訳): Active-O3: GRPOによるアクティブパーセプションによるマルチモーダル大言語モデルの強化
- Authors: Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen,
- Abstract要約: アクティブビジョン(Active Vision)とは、タスク関連情報を収集するために、どこでどのように見るべきかを積極的に選択するプロセスである。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
- 参考スコア(独自算出の注目度): 63.140883026848286
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Active vision, also known as active perception, refers to the process of actively selecting where and how to look in order to gather task-relevant information. It is a critical component of efficient perception and decision-making in humans and advanced embodied agents. Recently, the use of Multimodal Large Language Models (MLLMs) as central planning and decision-making modules in robotic systems has gained extensive attention. However, despite the importance of active perception in embodied intelligence, there is little to no exploration of how MLLMs can be equipped with or learn active perception capabilities. In this paper, we first provide a systematic definition of MLLM-based active perception tasks. We point out that the recently proposed GPT-o3 model's zoom-in search strategy can be regarded as a special case of active perception; however, it still suffers from low search efficiency and inaccurate region selection. To address these issues, we propose ACTIVE-O3, a purely reinforcement learning based training framework built on top of GRPO, designed to equip MLLMs with active perception capabilities. We further establish a comprehensive benchmark suite to evaluate ACTIVE-O3 across both general open-world tasks, such as small-object and dense object grounding, and domain-specific scenarios, including small object detection in remote sensing and autonomous driving, as well as fine-grained interactive segmentation. In addition, ACTIVE-O3 also demonstrates strong zero-shot reasoning abilities on the V* Benchmark, without relying on any explicit reasoning data. We hope that our work can provide a simple codebase and evaluation protocol to facilitate future research on active perception in MLLMs.
- Abstract(参考訳): アクティブ・ビジョン(アクティブ・ビジョン、英: Active Vision)とは、タスク関連情報を集めるために、どこでどのように見るべきかを積極的に選択する過程のこと。
これは、ヒトおよび高度なエンボディドエージェントにおける効率的な知覚と意思決定の重要な構成要素である。
近年,マルチモーダル大規模言語モデル (MLLM) をロボットシステムの中心的計画・意思決定モジュールとして採用する動きが注目されている。
しかし、インボディード・インテリジェンスにおけるアクティブ・インテリジェンスの重要性にもかかわらず、MLLMがアクティブ・インテリジェンス・インテリジェンス(能動的インテリジェンス)の能力をどのように装備するか、あるいは学習できるかは、ほとんど、あるいは全く調査されていない。
本稿ではまず,MLLMに基づく能動知覚タスクの体系的定義について述べる。
最近提案されたGPT-o3モデルのズームイン検索戦略は、アクティブな認識の特別な場合とみなすことができるが、探索効率の低下や領域選択の不正確さに悩まされている。
これらの課題に対処するため,GRPO上に構築された純粋に強化学習に基づくトレーニングフレームワークであるACTIVE-O3を提案する。
さらに,小型物体と高密度物体の接地や,遠隔センシングや自律運転における小さな物体検出,微粒な対話的セグメンテーションなどドメイン固有のシナリオといった,オープンワールドのタスク全般にわたるACTIVE-O3を評価するための総合的なベンチマークスイートを構築した。
さらにACTIVE-O3は、明示的な推論データに頼ることなく、V*ベンチマーク上で強力なゼロショット推論能力を示す。
我々は,MLLMのアクティブな認識を促進するための,シンプルなコードベースと評価プロトコルを提供することを願っている。
関連論文リスト
- Active Perception for Tactile Sensing: A Task-Agnostic Attention-Based Approach [20.92963712967206]
ロボット工学において、アクティブな触覚は重要な研究領域として現れている。
この研究は、部分的に観察可能な環境がもたらす課題に対処するために、TAP(Task-Agnostic Active Perception)を導入している。
設計上、TAPは完全にタスクに依存しず、原則としてあらゆるアクティブな知覚問題に一般化することができる。
論文 参考訳(メタデータ) (2025-05-09T16:49:26Z) - Benchmarking Large Vision-Language Models on Fine-Grained Image Tasks: A Comprehensive Evaluation [53.84282335629258]
我々は、FG-BMKと呼ばれる包括的きめ細かい評価ベンチマークを導入し、1.01万の質問と0.33万の画像を含む。
本評価では,人間指向と機械指向の両方の観点からLVLMを体系的に検討する。
トレーニングパラダイム,モダリティアライメント,摂動感受性,および細粒度カテゴリー推論がタスクパフォーマンスに与える影響について,重要な知見を明らかにした。
論文 参考訳(メタデータ) (2025-04-21T09:30:41Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models [18.992215985625492]
マルチモーダル大言語モデル(MLLM)における能動的知覚の評価
我々は、既存のMLLMでは難しい評価を緩和し、定量化する、視覚質問回答(VQA)の専門形式に焦点を当てる。
我々は,制限された知覚野が能動的な知覚を可能にする上で重要な役割を担っていることを観察した。
論文 参考訳(メタデータ) (2024-10-07T00:16:26Z) - Cognitive Planning for Object Goal Navigation using Generative AI Models [0.979851640406258]
本稿では,効率的な探索戦略を生成するオブジェクトゴールナビゲーション問題を解決するための新しいフレームワークを提案する。
我々のアプローチは,Large Language Models (LLMs) とLarge Vision-Language Models (LVLMs) を活用することで,ロボットが慣れない環境をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-03-30T10:54:59Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。