論文の概要: LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation
- arxiv url: http://arxiv.org/abs/2510.25263v2
- Date: Fri, 31 Oct 2025 09:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 15:46:17.845589
- Title: LangHOPS: Language Grounded Hierarchical Open-Vocabulary Part Segmentation
- Title(参考訳): LangHOPS: 階層的なオープン語彙部分のセグメンテーションに基づく言語
- Authors: Yang Miao, Jan-Nico Zaech, Xi Wang, Fabien Despinoy, Danda Pani Paudel, Luc Van Gool,
- Abstract要約: オープンな語彙を持つオブジェクト-部分のインスタンスセグメンテーションのための,MLLM(Multimodal Large Language Model)ベースのフレームワークであるLangHOPSを提案する。
LangHOPSは、オープン語彙候補カテゴリから階層オブジェクトと部分インスタンスを共同で検出し、セグメント化することができる。
- 参考スコア(独自算出の注目度): 56.12844551763724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose LangHOPS, the first Multimodal Large Language Model (MLLM) based framework for open-vocabulary object-part instance segmentation. Given an image, LangHOPS can jointly detect and segment hierarchical object and part instances from open-vocabulary candidate categories. Unlike prior approaches that rely on heuristic or learnable visual grouping, our approach grounds object-part hierarchies in language space. It integrates the MLLM into the object-part parsing pipeline to leverage its rich knowledge and reasoning capabilities, and link multi-granularity concepts within the hierarchies. We evaluate LangHOPS across multiple challenging scenarios, including in-domain and cross-dataset object-part instance segmentation, and zero-shot semantic segmentation. LangHOPS achieves state-of-the-art results, surpassing previous methods by 5.5% Average Precision (AP) (in-domain) and 4.8% (cross-dataset) on the PartImageNet dataset and by 2.5% mIOU on unseen object parts in ADE20K (zero-shot). Ablation studies further validate the effectiveness of the language-grounded hierarchy and MLLM driven part query refinement strategy. The code will be released here.
- Abstract(参考訳): オープンな語彙を持つオブジェクト-部分のインスタンスセグメンテーションのための,MLLM(Multimodal Large Language Model)ベースのフレームワークであるLangHOPSを提案する。
画像が与えられたら、LangHOPSはオープン語彙候補カテゴリから階層オブジェクトと部分インスタンスを共同で検出し、セグメント化することができる。
ヒューリスティックあるいは学習可能なビジュアルグルーピングに依存する従来のアプローチとは異なり、我々のアプローチは言語空間におけるオブジェクト指向階層を基盤としています。
MLLMをオブジェクト部分解析パイプラインに統合し、その豊富な知識と推論能力を活用し、階層内の複数の粒度の概念をリンクする。
ドメイン内およびクロスデータセットのオブジェクト-部分インスタンスセグメンテーション,ゼロショットセマンティックセグメンテーションなど,複数の難易度シナリオでLangHOPSを評価した。
LangHOPSは最先端の結果を達成し、従来の手法を5.5%平均精度(AP)で、PartImageNetデータセットでは4.8%(クロスデータセット)で、ADE20K(ゼロショット)では2.5% mIOUで上回る。
アブレーション研究は、言語基底階層とMLLMによる部分クエリ改善戦略の有効性をさらに検証する。
コードはここでリリースされる。
関連論文リスト
- RecBase: Generative Foundation Model Pretraining for Zero-Shot Recommendation [78.01030342481246]
RecBaseは、レコメンデーション指向の目的によって事前訓練されたドメインに依存しない基礎モデルである。
アイテムを階層的な概念識別子にエンコードする統一されたアイテムトークンを導入します。
我々のモデルは、ゼロショットおよびクロスドメインレコメンデーションタスクにおいて、LLMのベースラインの最大7Bパラメータのパフォーマンスを一致または超過します。
論文 参考訳(メタデータ) (2025-09-03T08:33:43Z) - Cross-Domain Semantic Segmentation with Large Language Model-Assisted Descriptor Generation [0.0]
LangSegはコンテキストに敏感できめ細かいサブクラス記述子を利用する新しいセマンティックセマンティックセマンティクス手法である。
我々はLangSegをADE20KとCOCO-Stuffという2つの挑戦的なデータセットで評価し、最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2025-01-27T20:02:12Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。
セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。
パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - Lidar Panoptic Segmentation in an Open World [50.094491113541046]
ライダーパノプティクス(LPS)は自動運転車の安全な配備に不可欠である。
LPSは、セマンティッククラスの事前に定義された語彙であるライダーポイントを認識し、セグメント化することを目的としている。
階層的な方法で入力クラウドのクラスタリングとオーバーセグメンテーションを提案し,次にバイナリポイントセグメント分類を行う。
論文 参考訳(メタデータ) (2024-09-22T00:10:20Z) - PartGLEE: A Foundation Model for Recognizing and Parsing Any Objects [104.34288029037141]
画像中の物体と部分の位置と識別のための部分レベル基礎モデルであるPartGLEEを提案する。
PartGLEEは、オープンワールドシナリオにおけるあらゆる粒度のインスタンスの検出、セグメンテーション、グラウンド化を達成する。
論文 参考訳(メタデータ) (2024-07-23T17:58:26Z) - SPIN: Hierarchical Segmentation with Subpart Granularity in Natural Images [17.98848062686217]
自然画像のサブパートアノテーションを用いた最初の階層的セマンティックセマンティックセマンティクスデータセットを提案する。
また,アルゴリズムが階層レベルの空間的関係と意味的関係をいかにうまく捉えるかを評価するために,新しい評価指標を2つ導入した。
論文 参考訳(メタデータ) (2024-07-12T21:08:00Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Betrayed by Captions: Joint Caption Grounding and Generation for Open
Vocabulary Instance Segmentation [80.48979302400868]
オープンな語彙のインスタンスセグメンテーションに注目し、セグメンテーションモデルを拡張して、インスタンスレベルの新しいカテゴリを分類し、セグメンテーションする。
これまでは、画像領域と名詞の字幕間の1対1のマッピングを確立するために、大量の字幕データセットと複雑なパイプラインに頼っていた。
我々は,一致したオブジェクトのみに着目して学習効率を向上させる新しいグラウンドニング損失を取り入れた,共同の textbf Caption Grounding and Generation (CGG) フレームワークを考案した。
論文 参考訳(メタデータ) (2023-01-02T18:52:12Z) - TransFGU: A Top-down Approach to Fine-Grained Unsupervised Semantic
Segmentation [44.75300205362518]
教師なしセマンティックセグメンテーションは、手動のアノテーションを使わずに、低レベルの視覚的特徴の高レベルセマンティック表現を得ることを目的としている。
本稿では, 非常に複雑なシナリオにおける細粒度セグメンテーションのための, トップダウンの教師なしセグメンテーションフレームワークを提案する。
我々の結果は、トップダウンの教師なしセグメンテーションが、オブジェクト中心とシーン中心の両方のデータセットに対して堅牢であることを示している。
論文 参考訳(メタデータ) (2021-12-02T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。