論文の概要: Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos
- arxiv url: http://arxiv.org/abs/2506.05302v1
- Date: Thu, 05 Jun 2025 17:51:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.873561
- Title: Perceive Anything: Recognize, Explain, Caption, and Segment Anything in Images and Videos
- Title(参考訳): 知覚のあらゆるもの:画像とビデオにおける認識、説明、キャプション、セグメンテーション
- Authors: Weifeng Lin, Xinyu Wei, Ruichuan An, Tianhe Ren, Tingwei Chen, Renrui Zhang, Ziyu Guo, Wentao Zhang, Lei Zhang, Hongsheng Li,
- Abstract要約: 本稿では,画像やビデオの総合的な領域レベルの視覚的理解のためのフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合することで,強力なセグメンテーションモデルSAM 2を拡張し,オブジェクトセグメンテーションの同時実現を可能にする。
SAM 2のリッチな視覚的特徴をマルチモーダルトークンに効率的に変換するために、Semantic Perceiverという重要なコンポーネントが導入されている。
- 参考スコア(独自算出の注目度): 53.723410664944566
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Perceive Anything Model (PAM), a conceptually straightforward and efficient framework for comprehensive region-level visual understanding in images and videos. Our approach extends the powerful segmentation model SAM 2 by integrating Large Language Models (LLMs), enabling simultaneous object segmentation with the generation of diverse, region-specific semantic outputs, including categories, label definition, functional explanations, and detailed captions. A key component, Semantic Perceiver, is introduced to efficiently transform SAM 2's rich visual features, which inherently carry general vision, localization, and semantic priors into multi-modal tokens for LLM comprehension. To support robust multi-granularity understanding, we also develop a dedicated data refinement and augmentation pipeline, yielding a high-quality dataset of 1.5M image and 0.6M video region-semantic annotations, including novel region-level streaming video caption data. PAM is designed for lightweightness and efficiency, while also demonstrates strong performance across a diverse range of region understanding tasks. It runs 1.2-2.4x faster and consumes less GPU memory than prior approaches, offering a practical solution for real-world applications. We believe that our effective approach will serve as a strong baseline for future research in region-level visual understanding.
- Abstract(参考訳): 本稿では,画像やビデオにおける領域レベルの視覚的理解を包括的に理解するための,概念的に単純かつ効率的なフレームワークであるPerceive Anything Model(PAM)を提案する。
提案手法は,Large Language Models (LLMs) を統合した強力なセグメンテーションモデルSAM 2を拡張し,カテゴリ,ラベル定義,機能説明,詳細なキャプションを含む,多種多様な地域固有のセグメンテーションを生成する。
セマンティック・パーシーバー (Semantic Perceiver) はSAM 2のリッチな視覚的特徴を効果的に変換するために導入された。
頑健なマルチグラニュラリティ理解を支援するため,我々は,新しい領域レベルのストリーミングビデオキャプションデータを含む1.5M画像の高品質データセットと0.6Mビデオ領域セマンティックアノテーションを提供する専用データ精細化と拡張パイプラインも開発している。
PAMは軽量さと効率性のために設計されており、さまざまな領域理解タスクに対して高いパフォーマンスを示す。
1.2-2.4倍高速に動作し、従来のアプローチよりもGPUメモリを消費し、現実世界のアプリケーションに実用的なソリューションを提供する。
我々は、我々の効果的なアプローチが、地域レベルの視覚的理解における将来の研究の強力なベースラインとなると信じている。
関連論文リスト
- Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。
MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。
階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文 参考訳(メタデータ) (2025-03-17T12:31:23Z) - InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models [37.43195217391341]
本稿では,画像レベルと映像レベルのセグメンテーションと推論セグメンテーションの融合を,IVS(Instructed Visual)として定義する。
具体的には、参照フレームから時間的およびオブジェクト情報を抽出し、包括的な映像理解を容易にするために、オブジェクト認識ビデオ知覚器を用いる。
マルチタスクとエンドツーエンドのトレーニングを活用することで、InstructSegは、さまざまな画像およびビデオセグメンテーションタスクにまたがる優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-18T16:20:40Z) - Exploring Multi-Grained Concept Annotations for Multimodal Large Language Models [55.25892137362187]
MLLMのためのMMGiCアノテーション(Multimodal Multi-Grained Concept Annotation)を特徴とする新しいデータセットを提案する。
分析の結果,構造化テンプレートと汎用MLLMフレームワークの下で,多義的な概念アノテーションが相互に統合され,補完されることが明らかとなった。
さらに,12のマルチモーダル理解および生成ベンチマークにおいて,MMGiCと画像キャプチャデータとの公正な比較と効果的な協調関係を検証し,我々の仮説を検証した。
論文 参考訳(メタデータ) (2024-12-08T13:45:44Z) - INF-LLaVA: Dual-perspective Perception for High-Resolution Multimodal Large Language Model [71.50973774576431]
本稿では,高解像度画像認識のための新しいMLLM INF-LLaVAを提案する。
我々はDCM(Dual-perspective Cropping Module)を導入し、各サブイメージが局所的な視点から連続的な詳細を含むことを保証する。
第2に,グローバルな特徴と局所的な特徴の相互強化を可能にするDEM(Dual-perspective Enhancement Module)を導入する。
論文 参考訳(メタデータ) (2024-07-23T06:02:30Z) - Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model [17.3535277338312]
u-LLaVAは、MLLMの知覚能力を改善するためにピクセル、地域、グローバル機能を統合する革新的な統合マルチタスクフレームワークである。
この研究は、277Kサンプルからなるマスクベースの新しいマルチタスクデータセットに貢献し、MLLMの微粒化知覚能力に挑戦し評価する。
論文 参考訳(メタデータ) (2023-11-09T13:18:27Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。