論文の概要: AGSwap: Overcoming Category Boundaries in Object Fusion via Adaptive Group Swapping
- arxiv url: http://arxiv.org/abs/2509.18699v1
- Date: Tue, 23 Sep 2025 06:32:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.731513
- Title: AGSwap: Overcoming Category Boundaries in Object Fusion via Adaptive Group Swapping
- Title(参考訳): AGSwap:Adaptive Group Swappingによるオブジェクトフュージョンにおけるカテゴリ境界の克服
- Authors: Zedong Zhang, Ying Tai, Jianjun Qian, Jian Yang, Jun Li,
- Abstract要約: クロスカテゴリオブジェクトを1つのコヒーレントオブジェクトに融合させることは、テキスト・ツー・イメージ(T2I)生成において注目を集めている。
textbfAdaptive Group Swapping (AGSwap) を提案する。
我々はまた、ImageNet-1KとWordNet上に構築された大規模で階層的に構造化されたデータセットである textbfCross-category Object Fusion (COF) も導入した。
- 参考スコア(独自算出の注目度): 45.92060292948099
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fusing cross-category objects to a single coherent object has gained increasing attention in text-to-image (T2I) generation due to its broad applications in virtual reality, digital media, film, and gaming. However, existing methods often produce biased, visually chaotic, or semantically inconsistent results due to overlapping artifacts and poor integration. Moreover, progress in this field has been limited by the absence of a comprehensive benchmark dataset. To address these problems, we propose \textbf{Adaptive Group Swapping (AGSwap)}, a simple yet highly effective approach comprising two key components: (1) Group-wise Embedding Swapping, which fuses semantic attributes from different concepts through feature manipulation, and (2) Adaptive Group Updating, a dynamic optimization mechanism guided by a balance evaluation score to ensure coherent synthesis. Additionally, we introduce \textbf{Cross-category Object Fusion (COF)}, a large-scale, hierarchically structured dataset built upon ImageNet-1K and WordNet. COF includes 95 superclasses, each with 10 subclasses, enabling 451,250 unique fusion pairs. Extensive experiments demonstrate that AGSwap outperforms state-of-the-art compositional T2I methods, including GPT-Image-1 using simple and complex prompts.
- Abstract(参考訳): クロスカテゴリオブジェクトを単一のコヒーレントオブジェクトに融合させることは、バーチャルリアリティ、デジタルメディア、フィルム、ゲームに広く応用されているため、テキスト・ツー・イメージ(T2I)生成において注目を集めている。
しかし、既存の手法はしばしば、重複したアーティファクトと貧弱な統合のためにバイアス、視覚的カオス、意味的に矛盾した結果を生み出す。
さらに、この分野での進歩は、包括的なベンチマークデータセットがないために制限されてきた。
これらの問題に対処するために,(1)特徴操作を通じて異なる概念から意味的属性を抽出するグループワイドな埋め込み・スワッピング,(2)バランス評価スコアによってガイドされる動的最適化機構である適応グループ更新,の2つの主要な構成要素からなる,単純かつ高効率なアプローチである「textbf{Adaptive Group Swapping (AGSwap)」を提案する。
さらに、ImageNet-1KとWordNet上に構築された大規模で階層的なデータセットである \textbf{Cross-category Object Fusion (COF) を導入する。
COFには95個のスーパークラスがあり、それぞれ10個のサブクラスがあり、451,250個のユニークな融合ペアが可能である。
大規模な実験により、AGSwapは単純なプロンプトと複雑なプロンプトを用いてGPT-Image-1を含む最先端の合成T2I法より優れていることが示された。
関連論文リスト
- Revisiting Efficient Semantic Segmentation: Learning Offsets for Better Spatial and Class Feature Alignment [67.94226713255732]
本稿では,クラス表現と空間像の特徴の両方を動的に洗練するために,特徴とクラスオフセットを学習するデュアルブランチオフセット学習パラダイムを提案する。
提案手法に基づいて,効率的なセマンティックセグメンテーションネットワークOffSegを構築した。
ADE20K、Cityscapes、COCO-Stuff-164K、Pascal Contextを含む4つのデータセットの実験は、無視可能なパラメータによる一貫した改善を示している。
論文 参考訳(メタデータ) (2025-08-12T10:10:10Z) - MSDNet: Multi-Scale Decoder for Few-Shot Semantic Segmentation via Transformer-Guided Prototyping [1.1557852082644071]
少数のアノテーション付きの例だけで、クエリイメージ内のオブジェクトをセグメント化するという課題に、Semanticは対処している。
本稿では,Transformerアーキテクチャに基づく新しいFew-shot Semanticフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-17T16:14:03Z) - M$^3$Net: Multi-view Encoding, Matching, and Fusion for Few-shot
Fine-grained Action Recognition [80.21796574234287]
M$3$Netは、FS-FGアクション認識のためのマッチングベースのフレームワークである。
textitmulti-view エンコーディング、textitmulti-view matching、textitmulti-view fusion を組み込んで、埋め込みエンコーディング、類似性マッチング、意思決定を容易にする。
説明可能な可視化と実験結果により,M$3$Netの微細な動作の詳細を捉える上での優位性が示された。
論文 参考訳(メタデータ) (2023-08-06T09:15:14Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Semantic-aligned Fusion Transformer for One-shot Object Detection [18.58772037047498]
ワンショットオブジェクト検出は、与えられた1つのインスタンスに従って新しいオブジェクトを検出することを目的としている。
現在のアプローチでは、直接転送可能なメタ知識を得るために様々な特徴融合を探索している。
本稿では,これらの問題を解決するために,Semantic-aligned Fusion Transformer (SaFT) というシンプルなアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-17T05:38:47Z) - CoADNet: Collaborative Aggregation-and-Distribution Networks for
Co-Salient Object Detection [91.91911418421086]
Co-Salient Object Detection (CoSOD)は、2つ以上の関連する画像を含む所定のクエリグループに繰り返し現れる健全なオブジェクトを発見することを目的としている。
課題の1つは、画像間の関係をモデリングし、活用することによって、コ・サリヤ・キューを効果的にキャプチャする方法である。
我々は,複数画像から有能かつ反復的な視覚パターンを捉えるために,エンドツーエンドの協調集約配信ネットワーク(CoADNet)を提案する。
論文 参考訳(メタデータ) (2020-11-10T04:28:11Z) - AlignSeg: Feature-Aligned Segmentation Networks [109.94809725745499]
本稿では,機能集約プロセスにおける誤アライメント問題に対処するために,特徴適応型ネットワーク(AlignSeg)を提案する。
我々のネットワークは、それぞれ82.6%と45.95%という新しい最先端のmIoUスコアを達成している。
論文 参考訳(メタデータ) (2020-02-24T10:00:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。