Fugu-MT 論文翻訳(概要): PartComposer: Learning and Composing Part-Level Concepts from Single-Image Examples

論文の概要: PartComposer: Learning and Composing Part-Level Concepts from Single-Image Examples

arxiv url: http://arxiv.org/abs/2506.03004v1
Date: Tue, 03 Jun 2025 15:43:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:35.818558
Title: PartComposer: Learning and Composing Part-Level Concepts from Single-Image Examples
Title（参考訳）: PartComposer: 単一画像例からのパートレベル概念の学習と構成
Authors: Junyu Liu, R. Kenny Jones, Daniel Ritchie,
Abstract要約: PartComposerは、単一イメージの例から学ぶ部分レベルの概念のフレームワークである。本稿では,一発データ不足に対処するために,多様な部分合成を生成する動的データ合成パイプラインを提案する。
参考スコア（独自算出の注目度）: 21.521762036031618
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We present PartComposer: a framework for part-level concept learning from single-image examples that enables text-to-image diffusion models to compose novel objects from meaningful components. Existing methods either struggle with effectively learning fine-grained concepts or require a large dataset as input. We propose a dynamic data synthesis pipeline generating diverse part compositions to address one-shot data scarcity. Most importantly, we propose to maximize the mutual information between denoised latents and structured concept codes via a concept predictor, enabling direct regulation on concept disentanglement and re-composition supervision. Our method achieves strong disentanglement and controllable composition, outperforming subject and part-level baselines when mixing concepts from the same, or different, object categories.
Abstract（参考訳）: 本稿では,テキストから画像への拡散モデルを用いて,意味のあるコンポーネントから新規なオブジェクトを作成可能な,単一イメージ例からのパートレベルの概念学習フレームワークPartComposerを提案する。既存の方法は、より詳細な概念を効果的に学習するのに苦労するか、入力として大きなデータセットを必要とする。本稿では,一発データ不足に対処するために,多様な部分合成を生成する動的データ合成パイプラインを提案する。最も重要なことは,概念予測器を用いて,認知された潜伏者と構造化された概念コードとの相互情報を最大化することであり,概念のゆがみと再構成の監督に関する直接的な規制を可能にすることである。提案手法は,概念を同一あるいは異なる対象カテゴリから混合する場合に,主観的および部分的ベースラインよりも優れた,強い絡み合いと制御可能な構成を実現する。

関連論文リスト

IP-Composer: Semantic Composition of Visual Concepts [49.18472621931207]
合成画像生成のためのトレーニング不要アプローチであるIP-Composerを提案する。提案手法は,入力画像のCLIP埋め込みを条件とした新しい画像を生成するIP-Adapter上に構築する。テキストから特定された概念固有のCLIP-サブスペースに、複数の入力画像の投影から縫い付けられた複合埋め込みを製作することで、このアプローチを複数の視覚的入力に拡張する。
論文参考訳（メタデータ） (2025-02-19T18:49:31Z)
Advancing Ante-Hoc Explainable Models through Generative Adversarial Networks [24.45212348373868]
本稿では,視覚的分類タスクにおけるモデル解釈可能性と性能を向上させるための新しい概念学習フレームワークを提案する。本手法では, 教師なし説明生成器を一次分類器ネットワークに付加し, 対角訓練を利用する。この研究は、タスク整合概念表現を用いた本質的に解釈可能なディープビジョンモデルを構築するための重要なステップを示す。
論文参考訳（メタデータ） (2024-01-09T16:16:16Z)
Coarse-to-Fine Concept Bottleneck Models [9.910980079138206]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。我々のゴールは、人間の理解可能な概念を2段階の粒度で、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することである。この枠組みでは、概念情報は全体像と一般的な非構造概念の類似性にのみ依存せず、画像シーンのパッチ固有の領域に存在するより粒度の細かい概念情報を発見・活用するために概念階層の概念を導入している。
論文参考訳（メタデータ） (2023-10-03T14:57:31Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Concept-Centric Transformers: Enhancing Model Interpretability through Object-Centric Concept Learning within a Shared Global Workspace [1.6574413179773757]
概念中心変換器は、解釈可能性のための共有グローバルワークスペースの単純かつ効果的な構成である。本モデルでは,すべての問題に対して,すべてのベースラインの分類精度が向上することを示す。
論文参考訳（メタデータ） (2023-05-25T06:37:39Z)
Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set Alignment [17.423361070781876]
本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
論文参考訳（メタデータ） (2023-05-20T15:48:47Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文参考訳（メタデータ） (2022-10-12T06:16:34Z)
Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文参考訳（メタデータ） (2022-05-30T17:50:59Z)
Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。 Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文参考訳（メタデータ） (2021-11-04T17:46:12Z)
Visually Grounded Concept Composition [31.981204314287282]
我々はこれらを画像に合わせることによって、原始概念と全構成概念の両方の基礎を学ぶ。そこで本研究では,テキストと画像のマッチング精度を指標として,合成学習がより堅牢なグラウンド化結果をもたらすことを示す。
論文参考訳（メタデータ） (2021-09-29T00:38:58Z)
Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文参考訳（メタデータ） (2020-07-14T22:04:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。