論文の概要: DOS: Directional Object Separation in Text Embeddings for Multi-Object Image Generation
- arxiv url: http://arxiv.org/abs/2510.14376v1
- Date: Thu, 16 Oct 2025 07:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.756651
- Title: DOS: Directional Object Separation in Text Embeddings for Multi-Object Image Generation
- Title(参考訳): DOS:マルチオブジェクト画像生成のためのテキスト埋め込みにおける方向オブジェクト分離
- Authors: Dongnam Byun, Jungwon Park, Jumgmin Ko, Changin Choi, Wonjong Rhee,
- Abstract要約: 本稿では,3種類のCLIPテキスト埋め込みを,テキスト・ツー・イメージ・モデルに渡す前に修正するDOS(Directional Object separation)を提案する。
実験の結果,DOS は多目的画像生成の成功率を一貫して改善し,オブジェクトの混合を減少させることがわかった。
これらの結果は、多目的画像生成を改善するための実用的で効果的なソリューションとしてDOSを強調している。
- 参考スコア(独自算出の注目度): 11.436291416213356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in text-to-image (T2I) generative models has led to significant improvements in generating high-quality images aligned with text prompts. However, these models still struggle with prompts involving multiple objects, often resulting in object neglect or object mixing. Through extensive studies, we identify four problematic scenarios, Similar Shapes, Similar Textures, Dissimilar Background Biases, and Many Objects, where inter-object relationships frequently lead to such failures. Motivated by two key observations about CLIP embeddings, we propose DOS (Directional Object Separation), a method that modifies three types of CLIP text embeddings before passing them into text-to-image models. Experimental results show that DOS consistently improves the success rate of multi-object image generation and reduces object mixing. In human evaluations, DOS significantly outperforms four competing methods, receiving 26.24%-43.04% more votes across four benchmarks. These results highlight DOS as a practical and effective solution for improving multi-object image generation.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成モデルの最近の進歩は、テキスト・プロンプトに沿った高品質な画像の生成において、大幅な改善をもたらした。
しかしながら、これらのモデルは、複数のオブジェクトを含むプロンプトに苦慮し、しばしばオブジェクトの無視やオブジェクトの混合をもたらす。
広範囲にわたる研究を通じて、類似の形状、類似のテクスチャ、異種背景バイアス、多目的の4つの問題シナリオを特定し、オブジェクト間の関係はしばしばそのような失敗につながる。
CLIPの埋め込みに関する2つの重要な観測によって動機づけられたDOS(Directional Object separation)は、3種類のCLIPテキスト埋め込みを、テキスト・ツー・イメージモデルに渡す前に変更する手法である。
実験の結果,DOS は多目的画像生成の成功率を一貫して改善し,オブジェクトの混合を減少させることがわかった。
人間の評価では、DOSは4つの競合する手法を著しく上回り、4つのベンチマークで26.24%-43.04%の票を獲得した。
これらの結果は、多目的画像生成を改善するための実用的で効果的なソリューションとしてDOSを強調している。
関連論文リスト
- Color Bind: Exploring Color Perception in Text-to-Image Models [40.094195503306295]
複数色を含むプロンプトに対する多目的セマンティックアライメントの問題を緩和する専用画像編集手法を提案する。
本手法は,様々なテキスト・画像拡散技術を用いて生成した画像から,幅広いメトリクスに対して性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-08-27T11:16:58Z) - Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。
画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。
私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-11-30T11:27:58Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - MVAM: Multi-View Attention Method for Fine-grained Image-Text Matching [65.87255122130188]
画像テキストマッチングのためのMVAM(Multi-view Attention Method)を提案する。
また、入力データの異なる側面に注目するよう注意を喚起する目的も取り入れている。
提案手法により,異なる視点から画像やテキストをエンコードし,より重要な詳細に焦点を合わせることが可能となり,マッチング性能が向上する。
論文 参考訳(メタデータ) (2024-02-27T06:11:54Z) - Human Evaluation of Text-to-Image Models on a Multi-Task Benchmark [80.79082788458602]
テキスト・ツー・イメージ・モデルを評価するための新しいマルチタスク・ベンチマークを提供する。
我々は、最も一般的なオープンソース(安定拡散)と商用(DALL-E2)モデルを比較した。
20人のコンピュータサイエンスの大学院生が、2つのモデルを3つのタスクで評価し、それぞれ10のプロンプトで3つの難易度で評価した。
論文 参考訳(メタデータ) (2022-11-22T09:27:53Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Tasks Integrated Networks: Joint Detection and Retrieval for Image
Search [99.49021025124405]
多くの現実世界の探索シナリオ(例えばビデオ監視)では、オブジェクトは正確に検出または注釈付けされることはめったにない。
まず、エンド・ツー・エンド統合ネット(I-Net)を紹介します。
さらに,2つの新しいコントリビューションを行うDC-I-Netという改良されたI-Netを提案する。
論文 参考訳(メタデータ) (2020-09-03T03:57:50Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。