論文の概要: Leveraging Vision-Language Models for Open-Vocabulary Instance Segmentation and Tracking
- arxiv url: http://arxiv.org/abs/2503.16538v2
- Date: Mon, 20 Oct 2025 11:05:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.253145
- Title: Leveraging Vision-Language Models for Open-Vocabulary Instance Segmentation and Tracking
- Title(参考訳): Open-Vocabulary Instance Segmentation and Trackingのための視覚言語モデルの活用
- Authors: Bastian Pätzold, Jan Nogga, Sven Behnke,
- Abstract要約: 視覚言語モデル(VLM)は視覚的理解に優れるが、しばしば信頼性の高い接地能力と行動可能な推論速度を欠いている。
VLMの生成した構造化記述を用いて、可視オブジェクトのインスタンスを識別し、アプリケーション関連属性を収集し、開語彙検出器に通知し、対応するバウンディングボックスを抽出する。
トラックは、必要に応じて、新しい構造化された記述と検出を生成することで、オンラインで更新することができる。
- 参考スコア(独自算出の注目度): 15.551049337773962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) excel in visual understanding but often lack reliable grounding capabilities and actionable inference rates. Integrating them with open-vocabulary object detection (OVD), instance segmentation, and tracking leverages their strengths while mitigating these drawbacks. We utilize VLM-generated structured descriptions to identify visible object instances, collect application-relevant attributes, and inform an open-vocabulary detector to extract corresponding bounding boxes that are passed to a video segmentation model providing segmentation masks and tracking. Once initialized, this model directly extracts segmentation masks, processing image streams in real time with minimal computational overhead. Tracks can be updated online as needed by generating new structured descriptions and detections. This combines the descriptive power of VLMs with the grounding capability of OVD and the pixel-level understanding and speed of video segmentation. Our evaluation across datasets and robotics platforms demonstrates the broad applicability of this approach, showcasing its ability to extract task-specific attributes from non-standard objects in dynamic environments. Code, data, videos, and benchmarks are available at https://vlm-gist.github.io
- Abstract(参考訳): 視覚言語モデル(VLM)は視覚的理解に優れるが、しばしば信頼性の高い接地能力と行動可能な推論速度を欠いている。
オープンボキャブラリオブジェクト検出(OVD)、インスタンスセグメンテーション、トラッキングとの統合は、これらの欠点を緩和しながら、その強みを活用する。
我々は、VLM生成した構造化記述を用いて、可視オブジェクトのインスタンスを特定し、アプリケーション関連属性を収集し、オープン語彙検出器に通知し、セグメンテーションマスクとトラッキングを提供するビデオセグメンテーションモデルに渡される対応するバウンディングボックスを抽出する。
初期化されると、このモデルはセグメント化マスクを直接抽出し、最小の計算オーバーヘッドで画像ストリームをリアルタイムで処理する。
トラックは、必要に応じて、新しい構造化された記述と検出を生成することで、オンラインで更新することができる。
これは、VLMの記述力とOVDの接地能力と画素レベルの理解とビデオセグメンテーションの速度を組み合わせる。
動的環境における非標準オブジェクトからタスク固有の属性を抽出する能力を示す。
コード、データ、ビデオ、ベンチマークはhttps://vlm-gist.github.ioで公開されている。
関連論文リスト
- FOCUS: Unified Vision-Language Modeling for Interactive Editing Driven by Referential Segmentation [47.8417810406568]
最近のLVLM(Large Vision Language Models)は、視覚的理解と生成的モデリングを統一する有望な能力を示している。
本稿では,分割認識と制御可能なオブジェクト中心生成をエンドツーエンドフレームワークに統合した統合LVLMであるFOCUSを紹介する。
論文 参考訳(メタデータ) (2025-06-20T07:46:40Z) - GeoRSMLLM: A Multimodal Large Language Model for Vision-Language Tasks in Geoscience and Remote Sensing [33.19843463374473]
リモートセンシングにおける視覚言語モデル(VLM)は、従来のタスクにおいて大きな可能性を示している。
Referring Expression (REC) に長けている現在のモデルは、複雑な命令を含むタスクに苦労している。
本稿では、オープン語彙タスク(OVT)、表現タスク(RET)、記述対象タスク(DOT)を含むリモートセンシングビジョンランゲージタスクセット(RSVLTS)を紹介する。
本稿では, RSVLTS のセット・オブ・ポイント・アプローチと, 循環参照に基づく条件と自己拡張戦略を用いた新しい統一データ表現を提案する。
論文 参考訳(メタデータ) (2025-03-16T12:48:17Z) - OpenVidVRD: Open-Vocabulary Video Visual Relation Detection via Prompt-Driven Semantic Space Alignment [5.215417164787923]
視覚言語モデル(VLM)は、オープン語彙の視覚的関係の検出に役立つが、多くの場合、様々な視覚領域とそれらの関係との関係を見落としている。
本稿では,オープン語彙のVidVRDフレームワークであるOpenVidVRDを提案する。
論文 参考訳(メタデータ) (2025-03-12T14:13:17Z) - Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation [47.047267066525265]
画像にオブジェクトレベルの文脈知識を取り入れた新しいアプローチを導入する。
提案手法は,多種多様なデータセットにまたがる高い一般化性を有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-26T06:34:48Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained
Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。
局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。
複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文 参考訳(メタデータ) (2024-02-07T07:26:49Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Lidar Panoptic Segmentation and Tracking without Bells and Whistles [48.078270195629415]
ライダーセグメンテーションと追跡のための検出中心ネットワークを提案する。
私たちのネットワークのコアコンポーネントの1つは、オブジェクトインスタンス検出ブランチです。
提案手法を複数の3D/4D LPSベンチマークで評価し,我々のモデルがオープンソースモデル間で新たな最先端性を確立することを確認した。
論文 参考訳(メタデータ) (2023-10-19T04:44:43Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Segmenting Moving Objects via an Object-Centric Layered Representation [100.26138772664811]
深層表現を用いたオブジェクト中心セグメンテーションモデルを提案する。
複数のオブジェクトで合成トレーニングデータを生成するスケーラブルなパイプラインを導入する。
標準的なビデオセグメンテーションベンチマークでモデルを評価する。
論文 参考訳(メタデータ) (2022-07-05T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。