Fugu-MT 論文翻訳(概要): Explore In-Context Segmentation via Latent Diffusion Models

論文の概要: Explore In-Context Segmentation via Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2403.09616v2
Date: Sun, 09 Mar 2025 11:58:01 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:43.602239
Title: Explore In-Context Segmentation via Latent Diffusion Models
Title（参考訳）: 潜在拡散モデルによる文脈内セグメンテーションの探索
Authors: Chaoyang Wang, Xiangtai Li, Henghui Ding, Lu Qi, Jiangning Zhang, Yunhai Tong, Chen Change Loy, Shuicheng Yan,
Abstract要約: インコンテキストセグメンテーションは、与えられた参照画像を使ってオブジェクトをセグメンテーションすることを目的としている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、新しい視点から問題にアプローチし、コンテキスト内セグメンテーションのための潜在拡散モデルの能力を解き放つ。
参考スコア（独自算出の注目度）: 132.26274147026854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context segmentation has drawn increasing attention with the advent of vision foundation models. Its goal is to segment objects using given reference images. Most existing approaches adopt metric learning or masked image modeling to build the correlation between visual prompts and input image queries. This work approaches the problem from a fresh perspective - unlocking the capability of the latent diffusion model (LDM) for in-context segmentation and investigating different design choices. Specifically, we examine the problem from three angles: instruction extraction, output alignment, and meta-architectures. We design a two-stage masking strategy to prevent interfering information from leaking into the instructions. In addition, we propose an augmented pseudo-masking target to ensure the model predicts without forgetting the original images. Moreover, we build a new and fair in-context segmentation benchmark that covers both image and video datasets. Experiments validate the effectiveness of our approach, demonstrating comparable or even stronger results than previous specialist or visual foundation models. We hope our work inspires others to rethink the unification of segmentation and generation.
Abstract（参考訳）: インコンテキストセグメンテーションは、視覚基盤モデルの出現によって、注目を集めている。その目標は、指定された参照イメージを使ってオブジェクトをセグメントすることである。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。この研究は、コンテキスト内セグメンテーションのための潜在拡散モデル(LDM)の能力を解放し、異なる設計選択を調査する、という新しい視点からこの問題にアプローチする。具体的には,命令抽出,出力アライメント,メタアーキテクチャの3つの角度から問題を考察する。本研究では,2段階マスキング方式を設計し,干渉情報が命令に漏れないようにする。さらに,モデルが元の画像を忘れることなく予測できるように擬似マスキングターゲットを提案する。さらに、画像とビデオの両方のデータセットをカバーする、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。実験では、我々のアプローチの有効性を検証し、以前のスペシャリストやビジュアルファンデーションモデルに匹敵する、あるいはさらに強い結果を示します。私たちの仕事は、他の人たちにセグメンテーションとジェネレーションの統一を再考するよう促すことを願っています。

関連論文リスト

How to Squeeze An Explanation Out of Your Model [13.154512864498912]
本稿では,モデルに依存しない解釈可能性のアプローチを提案する。任意のモデルの分類レイヤーの前にSEブロックを含めることで、最も影響力のある特徴を検索することができる。以上の結果から,新たなSEベースの解釈性は,画像およびビデオ/マルチモーダル設定の様々なモデルに適用可能であることがわかった。
論文参考訳（メタデータ） (2024-12-06T15:47:53Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。 LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。我々の手法は既存の最先端アルゴリズムよりも優れている。
論文参考訳（メタデータ） (2024-08-15T15:56:23Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
SegICL: A Multimodal In-context Learning Framework for Enhanced Segmentation in Medical Imaging [24.32438479339158]
In-Context Learning (ICL) を利用した画像セグメンテーション手法であるSegICLを紹介する。 SegICLはテキスト誘導セグメンテーションを採用し、少量のイメージマスクペアでテキスト内学習を行うことができる。ショット供給時のセグメンテーション性能はゼロショット設定時の性能の約1.5倍である。
論文参考訳（メタデータ） (2024-03-25T09:43:56Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-08-22T07:27:09Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
D-LEMA: Deep Learning Ensembles from Multiple Annotations -- Application to Skin Lesion Segmentation [14.266037264648533]
画像に対するアノテーションの意見のコレクションを活用することは、ゴールド基準を推定する興味深い方法です。深層モデル学習時のアノテーションの不一致に対処する手法を提案する。
論文参考訳（メタデータ） (2020-12-14T01:51:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。