論文の概要: SegLLM: Multi-round Reasoning Segmentation
- arxiv url: http://arxiv.org/abs/2410.18923v1
- Date: Thu, 24 Oct 2024 17:11:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:22.350881
- Title: SegLLM: Multi-round Reasoning Segmentation
- Title(参考訳): SegLLM: マルチラウンド推論セグメンテーション
- Authors: XuDong Wang, Shaolun Zhang, Shufan Li, Konstantinos Kallidromitis, Kehan Li, Yusuke Kato, Kazuki Kozuka, Trevor Darrell,
- Abstract要約: 複数ラウンドの対話型推論セグメンテーションモデルであるSegLLMを提案する。
SegLLMは以前のセグメンテーション結果を入力ストリームに再統合する。
ビジュアルとテキストのクエリに、チャットのような形で応答する。
- 参考スコア(独自算出の注目度): 41.952545634785565
- License:
- Abstract: We present SegLLM, a novel multi-round interactive reasoning segmentation model that enhances LLM-based segmentation by exploiting conversational memory of both visual and textual outputs. By leveraging a mask-aware multimodal LLM, SegLLM re-integrates previous segmentation results into its input stream, enabling it to reason about complex user intentions and segment objects in relation to previously identified entities, including positional, interactional, and hierarchical relationships, across multiple interactions. This capability allows SegLLM to respond to visual and text queries in a chat-like manner. Evaluated on the newly curated MRSeg benchmark, SegLLM outperforms existing methods in multi-round interactive reasoning segmentation by over 20%. Additionally, we observed that training on multi-round reasoning segmentation data enhances performance on standard single-round referring segmentation and localization tasks, resulting in a 5.5% increase in cIoU for referring expression segmentation and a 4.5% improvement in Acc@0.5 for referring expression localization.
- Abstract(参考訳): 視覚とテキストの両方の対話メモリを活用することで,LLMに基づくセグメンテーションを向上する,多ラウンド対話型推論セグメンテーションモデルであるSegLLMを提案する。
マスクを意識したマルチモーダルLLMを活用することで、SegLLMは以前のセグメンテーション結果を入力ストリームに再統合し、複数のインタラクションをまたいだ位置、相互作用、階層的関係を含む、事前に特定されたエンティティに関連する複雑なユーザ意図やセグメンテーションオブジェクトを推論することができる。
この機能により、SegLLMは、チャットのような方法で、ビジュアルおよびテキストクエリに応答できる。
新たにキュレートされたMSSegベンチマークに基づいて、SegLLMは、複数ラウンドの対話的推論セグメンテーションにおいて既存のメソッドを20%以上上回っている。
さらに,マルチラウンド推論セグメンテーションデータのトレーニングにより,標準的な単一ラウンド参照セグメンテーションおよびローカライゼーションタスクの性能が向上し,表現セグメンテーションのcIoUが5.5%,表現ローカライゼーションのAcc@0.5が4.5%向上した。
関連論文リスト
- LISA++: An Improved Baseline for Reasoning Segmentation with Large
Language Model [54.850048630298495]
既存のLISAモデルの更新であるLISA++を導入し、基本アーキテクチャをそのまま維持しながらコア機能の改善に重点を置いている。
インスタンスセグメンテーション機能が追加され、既存のマルチリージョンセグメンテーションとともに、より詳細なシーン分析が提供される。
これらの改善は、構造的変化やデータソースを追加することなく、セグメンテーションと会話スキルを強化することを目的とした、ジェネリックセグメンテーションデータセットの既存のサンプルをキュレートすることで達成される。
論文 参考訳(メタデータ) (2023-12-28T18:58:33Z) - Segment Everything Everywhere All at Once [124.90835636901096]
画像中のすべてのものを同時にセグメント化するための,迅速かつインタラクティブなモデルであるSEEMを提案する。
そこで本研究では,あらゆるタイプのセグメンテーションタスクに対して,多様なプロンプトを可能にする新しい復号化機構を提案する。
多様なセグメンテーションタスクにおけるSEEMの有効性を検証するための総合的な実証的研究を行った。
論文 参考訳(メタデータ) (2023-04-13T17:59:40Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Open-world Semantic Segmentation via Contrasting and Clustering
Vision-Language Embedding [95.78002228538841]
本研究では,様々なオープンワールドカテゴリのセマンティックオブジェクトを高密度アノテーションを使わずにセマンティックオブジェクトのセマンティックオブジェクトのセマンティック化を学習するための,新しいオープンワールドセマンティックセマンティックセマンティックセマンティクスパイプラインを提案する。
提案手法は任意のカテゴリのオブジェクトを直接分割し、3つのベンチマークデータセット上でデータラベリングを必要とするゼロショットセグメンテーション法より優れている。
論文 参考訳(メタデータ) (2022-07-18T09:20:04Z) - UCP-Net: Unstructured Contour Points for Instance Segmentation [2.105564340986074]
本稿では,初期セグメンテーションとセグメンテーションの洗練のために,制約のない輪郭クリックに基づく対話型セグメンテーションを提案する。
本手法は分類に依存しず,一般的なセグメンテーションデータセットの最先端手法よりもユーザインタラクションの少ない精度のセグメンテーションマスク(IoU > 85%)を生成する。
論文 参考訳(メタデータ) (2021-09-15T22:03:37Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。