論文の概要: LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance
- arxiv url: http://arxiv.org/abs/2507.06272v1
- Date: Tue, 08 Jul 2025 07:46:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.338866
- Title: LIRA: Inferring Segmentation in Large Multi-modal Models with Local Interleaved Region Assistance
- Title(参考訳): LIRA:局所的インターリーブ領域支援を伴う大規模マルチモーダルモデルにおけるセグメンテーションの推論
- Authors: Zhang Li, Biao Yang, Qiang Liu, Shuo Zhang, Zhiyin Ma, Shuo Zhang, Liang Yin, Linger Deng, Yabo Sun, Yuliang Liu, Xiang Bai,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は不正確なセグメンテーションと幻覚的理解に苦しむ。
視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークであるLIRAを提案する。
LIRAはセグメンテーションと理解タスクの両方で最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 56.474856189865946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large multi-modal models (LMMs) demonstrate promising capabilities in segmentation and comprehension, they still struggle with two limitations: inaccurate segmentation and hallucinated comprehension. These challenges stem primarily from constraints in weak visual comprehension and a lack of fine-grained perception. To alleviate these limitations, we propose LIRA, a framework that capitalizes on the complementary relationship between visual comprehension and segmentation via two key components: (1) Semantic-Enhanced Feature Extractor (SEFE) improves object attribute inference by fusing semantic and pixel-level features, leading to more accurate segmentation; (2) Interleaved Local Visual Coupling (ILVC) autoregressively generates local descriptions after extracting local features based on segmentation masks, offering fine-grained supervision to mitigate hallucinations. Furthermore, we find that the precision of object segmentation is positively correlated with the latent related semantics of the <seg> token. To quantify this relationship and the model's potential semantic inferring ability, we introduce the Attributes Evaluation (AttrEval) dataset. Our experiments show that LIRA achieves state-of-the-art performance in both segmentation and comprehension tasks. Code will be available at https://github.com/echo840/LIRA.
- Abstract(参考訳): 大規模なマルチモーダルモデル(LMM)はセグメンテーションと理解において有望な能力を示すが、それでも不正確なセグメンテーションと幻覚的理解という2つの限界に苦慮している。
これらの課題は主に、弱い視覚的理解の制約と微妙な知覚の欠如に起因している。
この制限を緩和するために,LIRA は2つの主要な構成要素による視覚的理解とセグメンテーションの相補的関係を生かしたフレームワークである。(1) セグメンテーション(SEFE)は,意味的特徴と画素レベルの特徴を融合させてオブジェクト属性推論を改善し,より正確なセグメンテーションを実現する。(2) インターリーブド・ローカル・ビジュアル・カップリング(ILVC)は,セグメンテーション・マスクをベースとした局所的特徴を抽出し,局所的特徴を自己回帰的に生成し,幻覚を緩和する。
さらに,オブジェクトセグメンテーションの精度は<seg>トークンの潜在的関連セマンティクスと正に相関していることがわかった。
この関係とモデルの潜在的なセマンティック推論能力を定量化するために、属性評価(AttrEval)データセットを導入する。
実験の結果,LIRAはセグメンテーションタスクと理解タスクの両方において最先端のパフォーマンスを実現していることがわかった。
コードはhttps://github.com/echo840/LIRA.comから入手できる。
関連論文リスト
- Open-Vocabulary Camouflaged Object Segmentation with Cascaded Vision Language Models [35.947354809849166]
Open-Vocabulary Camouflaged Objectは、任意のカテゴリからカモフラージュされたオブジェクトを分類し分類しようとする。
最近のアプローチでは一般的に2段階のパラダイムが採用されている。
本稿では,OVCOSにおけるこれらの問題に対処する新しいVLM誘導型ケースドフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-24T04:16:41Z) - SGC-Net: Stratified Granular Comparison Network for Open-Vocabulary HOI Detection [16.89965584177711]
近年のオープン・ボキャブラリ・ヒューマン・オブジェクト・インタラクション(OV-HOI)検出手法は,補助的な記述を生成するために大規模言語モデル(LLM)に依存し,CLIPから抽出した知識を活用して未知の相互作用カテゴリを検出する。
1) テキストアライメントのための最終層視覚的特徴に依存し、中間層から重要なオブジェクトレベルの詳細を無視すること、(2) CLIPの特定のクラスに対する固有のバイアスに起因する意味的類似性混同、そしてラベルのみに基づくLCM生成記述は、クラス間の類似性を適切に捉えることができないこと、である。
論文 参考訳(メタデータ) (2025-03-01T09:26:05Z) - CALICO: Part-Focused Semantic Co-Segmentation with Large Vision-Language Models [2.331828779757202]
本稿では,マルチイメージ部分レベルの推論セグメンテーションのためのLVLM(Large Vision-Language Model)を提案する。
セマンティックな部分レベルの対応を識別する新しい対応抽出モジュールと、この情報をLVLMに埋め込む適応対応モジュールである。
パラメータの0.3%しか微調整されていないCALICOは,この課題に対して高いパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-12-26T18:59:37Z) - Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - Part-guided Relational Transformers for Fine-grained Visual Recognition [59.20531172172135]
識別的特徴を学習し,特徴変換モジュールとの相関関係を探索するフレームワークを提案する。
提案手法は,3-of-the-levelオブジェクト認識において,部分ブランチの追加に頼らず,最先端の性能に達する。
論文 参考訳(メタデータ) (2022-12-28T03:45:56Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Progressively Dual Prior Guided Few-shot Semantic Segmentation [57.37506990980975]
Few-shotのセマンティックセマンティックセマンティクスタスクは、いくつかのアノテーション付きサポートサンプルを使用して、クエリイメージのセマンティクスを実行することを目的としている。
本稿では,先進的に2重にガイドされた数発のセマンティックセマンティックセグメンテーションネットワークを提案する。
論文 参考訳(メタデータ) (2022-11-20T16:19:47Z) - Unsupervised segmentation via semantic-apparent feature fusion [21.75371777263847]
本研究では,意味親和性特徴融合(SAFF)に基づく教師なし前景セグメンテーション手法を提案する。
前景オブジェクトのキー領域はセマンティック機能によって正確に応答できる。
意味的特徴と明らかな特徴を融合させ、画像内適応的特徴量学習と画像間共通特徴学習のモジュールをカスケードすることにより、ベースラインをはるかに超える性能を達成する。
論文 参考訳(メタデータ) (2020-05-21T08:28:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。