Fugu-MT 論文翻訳(概要): Explore In-Context Segmentation via Latent Diffusion Models

論文の概要: Explore In-Context Segmentation via Latent Diffusion Models

arxiv url: http://arxiv.org/abs/2403.09616v1
Date: Thu, 14 Mar 2024 17:52:31 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-15 19:06:48.286819
Title: Explore In-Context Segmentation via Latent Diffusion Models
Title（参考訳）: 潜在拡散モデルによる文脈内セグメンテーションの探索
Authors: Chaoyang Wang, Xiangtai Li, Henghui Ding, Lu Qi, Jiangning Zhang, Yunhai Tong, Chen Change Loy, Shuicheng Yan,
Abstract要約: 潜在拡散モデル(LDM)は、文脈内セグメンテーションに有効な最小限のモデルである。画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。
参考スコア（独自算出の注目度）: 132.26274147026854
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In-context segmentation has drawn more attention with the introduction of vision foundation models. Most existing approaches adopt metric learning or masked image modeling to build the correlation between visual prompts and input image queries. In this work, we explore this problem from a new perspective, using one representative generation model, the latent diffusion model (LDM). We observe a task gap between generation and segmentation in diffusion models, but LDM is still an effective minimalist for in-context segmentation. In particular, we propose two meta-architectures and correspondingly design several output alignment and optimization strategies. We have conducted comprehensive ablation studies and empirically found that the segmentation quality counts on output alignment and in-context instructions. Moreover, we build a new and fair in-context segmentation benchmark that includes both image and video datasets. Experiments validate the efficiency of our approach, demonstrating comparable or even stronger results than previous specialist models or visual foundation models. Our study shows that LDMs can also achieve good enough results for challenging in-context segmentation tasks.
Abstract（参考訳）: インコンテキストセグメンテーションは、ビジョン基礎モデルの導入によってより注目されている。既存のほとんどのアプローチでは、視覚的プロンプトと入力画像クエリの相関を構築するために、メトリックラーニングやマスク付きイメージモデリングを採用しています。本研究では,1つの代表生成モデルである潜在拡散モデル(LDM)を用いて,新しい視点からこの問題を考察する。拡散モデルにおける生成とセグメンテーションの間のタスクギャップを観察するが、LDMは文内セグメンテーションの有効なミニマリストである。特に,2つのメタアーキテクチャを提案し,それに対応する出力アライメントと最適化戦略を設計する。包括的アブレーション研究を行い、セグメンテーションの品質が出力アライメントとインコンテクスト命令に依存していることを実証的に確認した。さらに、画像とビデオの両方のデータセットを含む、新しい、公正なコンテキスト内セグメンテーションベンチマークを構築します。実験では、我々のアプローチの効率を検証し、以前のスペシャリストモデルやビジュアルファンデーションモデルに匹敵する、あるいはさらに強い結果を示します。本研究は, LDMが文脈内セグメンテーション課題に挑戦する上で, 十分な結果が得られることを示す。

関連論文リスト

How to Squeeze An Explanation Out of Your Model [13.154512864498912]
本稿では,モデルに依存しない解釈可能性のアプローチを提案する。任意のモデルの分類レイヤーの前にSEブロックを含めることで、最も影響力のある特徴を検索することができる。以上の結果から,新たなSEベースの解釈性は,画像およびビデオ/マルチモーダル設定の様々なモデルに適用可能であることがわかった。
論文参考訳（メタデータ） (2024-12-06T15:47:53Z)
Unleashing the Potential of the Diffusion Model in Few-shot Semantic Segmentation [56.87049651707208]
セマンティックはインコンテクストタスクへと発展し、一般化的セグメンテーションモデルを評価する上で重要な要素となった。我々の最初の焦点は、クエリイメージとサポートイメージの相互作用を容易にする方法を理解することであり、その結果、自己注意フレームワーク内のKV融合法が提案される。そこで我々はDiffewSというシンプルで効果的なフレームワークを構築し,従来の潜在拡散モデルの生成フレームワークを最大限に保持する。
論文参考訳（メタデータ） (2024-10-03T10:33:49Z)
DaRec: A Disentangled Alignment Framework for Large Language Model and Recommender System [83.34921966305804]
大規模言語モデル (LLM) はレコメンデーションシステムにおいて顕著な性能を示した。 LLMと協調モデルのための新しいプラグ・アンド・プレイアライメントフレームワークを提案する。我々の手法は既存の最先端アルゴリズムよりも優れている。
論文参考訳（メタデータ） (2024-08-15T15:56:23Z)
Corpus Considerations for Annotator Modeling and Scaling [9.263562546969695]
一般的に使われているユーザトークンモデルは、より複雑なモデルよりも一貫して優れています。以上の結果から,コーパス統計とアノテータモデリング性能の関係が明らかになった。
論文参考訳（メタデータ） (2024-04-02T22:27:24Z)
FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文参考訳（メタデータ） (2024-03-29T10:38:25Z)
SegICL: A Multimodal In-context Learning Framework for Enhanced Segmentation in Medical Imaging [24.32438479339158]
In-Context Learning (ICL) を利用した画像セグメンテーション手法であるSegICLを紹介する。 SegICLはテキスト誘導セグメンテーションを採用し、少量のイメージマスクペアでテキスト内学習を行うことができる。ショット供給時のセグメンテーション性能はゼロショット設定時の性能の約1.5倍である。
論文参考訳（メタデータ） (2024-03-25T09:43:56Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文参考訳（メタデータ） (2023-12-18T18:59:51Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
LOCATE: Self-supervised Object Discovery via Flow-guided Graph-cut and Bootstrapped Self-training [13.985488693082981]
動作情報と外観情報を利用して高品質な物体分割マスクを生成する自己教師型物体発見手法を提案する。複数の標準ビデオオブジェクトセグメンテーション、画像のサリエンシ検出、オブジェクトセグメンテーションベンチマークにおいて、LOCATEと呼ばれるアプローチの有効性を実証する。
論文参考訳（メタデータ） (2023-08-22T07:27:09Z)
RefSAM: Efficiently Adapting Segmenting Anything Model for Referring Video Object Segmentation [53.4319652364256]
本稿では,ビデオオブジェクトのセグメンテーションを参照するためのSAMの可能性を探るRefSAMモデルを提案する。提案手法は,Cross-RValModalを用いることで,モダリティ学習を向上させるためにオリジナルのSAMモデルに適応する。我々は、言語と視覚の特徴を効果的に調整し、融合させるために、パラメータ効率のチューニング戦略を採用している。
論文参考訳（メタデータ） (2023-07-03T13:21:58Z)
Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文参考訳（メタデータ） (2023-03-13T16:00:31Z)
D-LEMA: Deep Learning Ensembles from Multiple Annotations -- Application to Skin Lesion Segmentation [14.266037264648533]
画像に対するアノテーションの意見のコレクションを活用することは、ゴールド基準を推定する興味深い方法です。深層モデル学習時のアノテーションの不一致に対処する手法を提案する。
論文参考訳（メタデータ） (2020-12-14T01:51:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。