論文の概要: Deep sprite-based image models: An analysis
- arxiv url: http://arxiv.org/abs/2604.19480v1
- Date: Tue, 21 Apr 2026 14:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.798049
- Title: Deep sprite-based image models: An analysis
- Title(参考訳): 深部スプライトに基づく画像モデル:解析
- Authors: Zeynep Sonat Baltacı, Romain Loiseau, Mathieu Aubry,
- Abstract要約: 本稿では,クラスタリングや画像分解に期待できるスプライトベース画像分解モデルに焦点をあてる。
これらのモデルは異なるフレーバーを持ち、特定のデータセットに合わせて調整する必要がある。
本稿では,最先端の教師なしクラス認識画像分割手法と同等に機能するディープスプライトに基づく画像分解手法を提案する。
- 参考スコア(独自算出の注目度): 13.609186452665098
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While foundation models drive steady progress in image segmentation and diffusion algorithms compose always more realistic images, the seemingly simple problem of identifying recurrent patterns in a collection of images remains very much open. In this paper, we focus on sprite-based image decomposition models, which have shown some promise for clustering and image decomposition and are appealing because of their high interpretability. These models come in different flavors, need to be tailored to specific datasets, and struggle to scale to images with many objects. We dive into the details of their design, identify their core components, and perform an extensive analysis on clustering benchmarks. We leverage this analysis to propose a deep sprite-based image decomposition method that performs on par with state-of-the-art unsupervised class-aware image segmentation methods on the standard CLEVR benchmark, scales linearly with the number of objects, identifies explicitly object categories, and fully models images in an easily interpretable way.
- Abstract(参考訳): 基礎モデルは画像セグメンテーションの着実に進歩し、拡散アルゴリズムは常により現実的な画像を構成するが、画像の集合における繰り返しパターンを特定するという一見単純な問題は、非常にオープンなままである。
本稿では,クラスタリングや画像分解の可能性を示唆するスプライトに基づく画像分解モデルに着目し,高い解釈性に訴える。
これらのモデルは異なるフレーバーを持ち、特定のデータセットに合わせて調整する必要がある。
それらの設計の詳細を調べ、コアコンポーネントを特定し、クラスタリングベンチマークに関する広範な分析を行います。
この分析を利用して、標準的なCLEVRベンチマークで最先端の教師なしクラス認識画像分割手法と同等に動作し、オブジェクト数と線形にスケールし、明示的なオブジェクトカテゴリを識別し、完全に解釈可能な方法で画像を完全にモデル化する、深部スプライトに基づく画像分解手法を提案する。
関連論文リスト
- Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Domain Bridge: Generative model-based domain forensic for black-box
models [20.84645356097581]
我々は、一般的なデータドメインだけでなく、その特定の属性も決定する拡張されたアプローチを導入する。
本手法では,エンコーダに画像埋め込みモデル,デコーダに生成モデルを用いる。
我々のアプローチの重要な強みは、生成モデルである安定拡散をトレーニングする拡張データセットであるLAION-5Bを活用することである。
論文 参考訳(メタデータ) (2024-02-07T07:57:43Z) - EmerDiff: Emerging Pixel-level Semantic Knowledge in Diffusion Models [52.3015009878545]
我々は、追加の訓練をすることなく、きめ細かなセグメンテーションマップを生成できる画像セグメンタを開発した。
低次元特徴写像の空間的位置と画像画素間の意味的対応を同定する。
大規模な実験では、生成したセグメンテーションマップがよく説明され、画像の細部を捉えることが示されている。
論文 参考訳(メタデータ) (2024-01-22T07:34:06Z) - Learning to Annotate Part Segmentation with Gradient Matching [58.100715754135685]
本稿では,事前学習したGANを用いて,高品質な画像を生成することで,半教師付き部分分割タスクに対処することに焦点を当てる。
特に、アノテータ学習を学習から学習までの問題として定式化する。
提案手法は,実画像,生成された画像,さらには解析的に描画された画像を含む,幅広いラベル付き画像からアノテータを学習可能であることを示す。
論文 参考訳(メタデータ) (2022-11-06T01:29:22Z) - A Generalist Framework for Panoptic Segmentation of Images and Videos [61.61453194912186]
我々は,タスクの帰納バイアスに頼ることなく,離散的なデータ生成問題としてパノプティクスセグメンテーションを定式化する。
単純な構造と一般的な損失関数を持つパノスコープマスクをモデル化するための拡散モデルを提案する。
本手法は,動画を(ストリーミング環境で)モデル化し,オブジェクトのインスタンスを自動的に追跡することを学ぶ。
論文 参考訳(メタデータ) (2022-10-12T16:18:25Z) - Salient Objects in Clutter [130.63976772770368]
本稿では,既存の正当性オブジェクト検出(SOD)データセットの重大な設計バイアスを特定し,対処する。
この設計バイアスは、既存のデータセットで評価した場合、最先端のSODモデルのパフォーマンスの飽和につながった。
我々は,新しい高品質データセットを提案し,前回のsaliencyベンチマークを更新する。
論文 参考訳(メタデータ) (2021-05-07T03:49:26Z) - Unsupervised Layered Image Decomposition into Object Prototypes [39.20333694585477]
自動検出対象モデルの層に画像を分解するための教師なし学習フレームワークを提案する。
我々はまず,標準マルチオブジェクト合成ベンチマークにおける技術状況と同等の結果を提供することで,我々のアプローチを検証した。
次に、クラスタリング(SVHN、GTSRB)、コセグメンテーション(Weizmann Horse)、フィルタされていないソーシャルネットワークイメージからのオブジェクト発見を含むタスクにおける実画像へのモデルの適用性を示す。
論文 参考訳(メタデータ) (2021-04-29T18:02:01Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。