論文の概要: Explore In-Context Segmentation via Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2403.09616v2
- Date: Sun, 09 Mar 2025 11:58:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:42:00.041938
- Title: Explore In-Context Segmentation via Latent Diffusion Models
- Title(参考訳): 潜在拡散モデルによる文脈内セグメンテーションの探索
- Authors: Chaoyang Wang, Xiangtai Li, Henghui Ding, Lu Qi, Jiangning Zhang, Yunhai Tong, Chen Change Loy, Shuicheng Yan,
- Abstract要約: インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。
既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。
この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
- 参考スコア(独自算出の注目度): 132.26274147026854
- License:
- Abstract: In-context segmentation has drawn increasing attention with the advent of vision foundation models. Its goal is to segment objects using given reference images. Most existing approaches adopt metric learning or masked image modeling to build the correlation between visual prompts and input image queries. This work approaches the problem from a fresh perspective - unlocking the capability of the latent diffusion model (LDM) for in-context segmentation and investigating different design choices. Specifically, we examine the problem from three angles: instruction extraction, output alignment, and meta-architectures. We design a two-stage masking strategy to prevent interfering information from leaking into the instructions. In addition, we propose an augmented pseudo-masking target to ensure the model predicts without forgetting the original images. Moreover, we build a new and fair in-context segmentation benchmark that covers both image and video datasets. Experiments validate the effectiveness of our approach, demonstrating comparable or even stronger results than previous specialist or visual foundation models. We hope our work inspires others to rethink the unification of segmentation and generation.
- Abstract(参考訳): インコンテキストセグメンテーションは、視覚基盤モデルの出現によって、注目を集めている。
その目標は、指定された参照イメージを使ってオブジェクトをセグメントすることである。
既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。
この研究は、コンテキスト内セグメンテーションのための潜在拡散モデル(LDM)の能力を解放し、異なる設計選択を調査する、という新しい視点からこの問題にアプローチする。
具体的には,命令抽出,出力アライメント,メタアーキテクチャの3つの角度から問題を考察する。
本研究では,2段階マスキング方式を設計し,干渉情報が命令に漏れないようにする。
さらに,モデルが元の画像を忘れることなく予測できるように擬似マスキングターゲットを提案する。
さらに、画像とビデオの両方のデータセットをカバーする、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
実験では、我々のアプローチの有効性を検証し、以前のスペシャリストやビジュアルファンデーションモデルに匹敵する、あるいはさらに強い結果を示します。
私たちの仕事は、他の人たちにセグメンテーションとジェネレーションの統一を再考するよう促すことを願っています。
関連論文リスト
- Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。
我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。
そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文 参考訳(メタデータ) (2024-10-03T10:33:49Z) - DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。
LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。
我々の手法は既存の最先端アルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-08-15T15:56:23Z) - Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。
以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文 参考訳(メタデータ) (2024-04-02T22:27:24Z) - SegICL: A Multimodal In-context Learning Framework for Enhanced Segmentation in Medical Imaging [24.32438479339158]
In-Context Learning (ICL) を利用した画像セグメンテーション手法であるSegICLを紹介する。
SegICLはテキスト誘導セグメンテーションを採用し、少量のイメージマスクペアでテキスト内学習を行うことができる。
ショット供給時のセグメンテーション性能はゼロショット設定時の性能の約1.5倍である。
論文 参考訳(メタデータ) (2024-03-25T09:43:56Z) - Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文 参考訳(メタデータ) (2023-12-05T06:02:21Z) - RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。
提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。
我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文 参考訳(メタデータ) (2023-07-03T13:21:58Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。