論文の概要: MIFO: Learning and Synthesizing Multi-Instance from One Image
- arxiv url: http://arxiv.org/abs/2511.00542v1
- Date: Sat, 01 Nov 2025 13:01:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.834482
- Title: MIFO: Learning and Synthesizing Multi-Instance from One Image
- Title(参考訳): MIFO:1つの画像からマルチインスタンスを学習し、合成する
- Authors: Kailun Su, Ziqi He, Xi Wang, Yang Zhou,
- Abstract要約: 本稿では,単一画像からの高精度な学習法とマルチインスタンスセマンティクスを提案する。
学習段階における類似意味論を解消するためのペナルティに基づくアテンション最適化を提案する。
この合成では,注意層におけるボックス制御を導入,最適化し,セマンティックリークを緩和する。
- 参考スコア(独自算出の注目度): 9.145948526332846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a method for precise learning and synthesizing multi-instance semantics from a single image. The difficulty of this problem lies in the limited training data, and it becomes even more challenging when the instances to be learned have similar semantics or appearance. To address this, we propose a penalty-based attention optimization to disentangle similar semantics during the learning stage. Then, in the synthesis, we introduce and optimize box control in attention layers to further mitigate semantic leakage while precisely controlling the output layout. Experimental results demonstrate that our method achieves disentangled and high-quality semantic learning and synthesis, strikingly balancing editability and instance consistency. Our method remains robust when dealing with semantically or visually similar instances or rare-seen objects. The code is publicly available at https://github.com/Kareneveve/MIFO
- Abstract(参考訳): 本論文では,単一画像から複数文の意味を正確に学習し,合成する手法を提案する。
この問題の難しさは、限られたトレーニングデータにあるため、学習対象のインスタンスが同様のセマンティクスや外観を持つ場合、さらに困難になる。
そこで本研究では,学習段階における類似意味論を解消するために,ペナルティに基づくアテンション最適化を提案する。
そこで,本研究では,注目層におけるボックス制御を導入,最適化することにより,出力レイアウトを正確に制御しながらセマンティックリークを緩和する。
実験により,提案手法は不整合かつ高品質なセマンティック学習と合成を実現し,編集性とインスタンスの一貫性を著しくバランスさせることが実証された。
我々の手法は意味的または視覚的に類似したインスタンスやまれなオブジェクトを扱う際にも頑健である。
コードはhttps://github.com/Kareneveve/MIFOで公開されている。
関連論文リスト
- Weakly-Supervised Contrastive Learning for Imprecise Class Labels [50.57424331797865]
正対と負対を定義するために「連続的意味的類似性」の概念を導入する。
弱教師付きコントラスト学習のためのグラフ理論フレームワークを提案する。
我々のフレームワークは非常に多用途であり、多くの弱い教師付き学習シナリオに適用できる。
論文 参考訳(メタデータ) (2025-05-28T06:50:40Z) - SCA: Improve Semantic Consistent in Unrestricted Adversarial Attacks via DDPM Inversion [27.7252951625431]
我々はセマンティック・コンスタント・アンリミスタント・アンリミテッド・アタック(SCA)と呼ばれる新しいフレームワークを提案する。
SCAは、編集しやすいノイズマップを抽出するために反転法を採用し、意味的なガイダンスを提供するためにMLLM(Multimodal Large Language Model)を使用している。
我々のフレームワークは、最小限の識別可能な意味変化を示す敵例の効率的な生成を可能にする。
論文 参考訳(メタデータ) (2024-10-03T06:25:53Z) - Simple Semantic-Aided Few-Shot Learning [2.8686437689115354]
限られた量のデータ、すなわちFew-Shot Learningから学ぶことは、コンピュータビジョンの課題として際立っている。
セマンティック進化(Semantic Evolution)と呼ばれる,高品質なセマンティックスを生成する自動手法を設計する。
セマンティックアライメントネットワーク(Semantic Alignment Network)と呼ばれる単純な2層ネットワークを用いて,セマンティックや視覚的特徴を堅牢なクラスプロトタイプに変換する。
論文 参考訳(メタデータ) (2023-11-30T15:57:34Z) - Learning from Rich Semantics and Coarse Locations for Long-tailed Object
Detection [157.18560601328534]
RichSemは、正確なバウンディングボックスを必要とせずに、粗い場所からリッチなセマンティクスを学ぶための堅牢な方法である。
我々はこれらのソフトセマンティクスを学習し、長い尾を持つ物体検出のための特徴表現を強化するために、セマンティクス分岐を検出器に追加する。
本手法は,複雑なトレーニングやテスト手順を必要とせず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-18T17:59:41Z) - Weakly Supervised 3D Instance Segmentation without Instance-level
Annotations [57.615325809883636]
3Dセマンティックシーン理解タスクは、ディープラーニングの出現によって大きな成功を収めた。
本稿では,分類的セマンティックラベルのみを監督対象とする,弱制御型3Dインスタンスセマンティクス手法を提案する。
分類的セマンティックラベルから擬似インスタンスラベルを生成することで,アノテーションコストの低減で既存の3Dインスタンスセグメンテーションの学習を支援することができる。
論文 参考訳(メタデータ) (2023-08-03T12:30:52Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Robust Contrastive Learning Using Negative Samples with Diminished
Semantics [23.38896719740166]
慎重に設計された負のサンプルを生成することで、コントラスト学習がより堅牢な表現を学習できることが示される。
我々は, テクスチャベースとパッチベースの拡張という2つの手法を開発し, 負のサンプルを生成する。
また,本手法と生成したテクスチャベースサンプルを分析し,特定のイメージネットクラスを分類するにはテクスチャの特徴が不可欠であることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:38:00Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Edge Guided GANs with Contrastive Learning for Semantic Image Synthesis [194.1452124186117]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
我々のECGANは最先端の手法よりもはるかに優れた結果が得られる。
論文 参考訳(メタデータ) (2020-03-31T01:23:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。