論文の概要: RaDL: Relation-aware Disentangled Learning for Multi-Instance Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2507.11947v1
- Date: Wed, 16 Jul 2025 06:28:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.252048
- Title: RaDL: Relation-aware Disentangled Learning for Multi-Instance Text-to-Image Generation
- Title(参考訳): RaDL:マルチインスタンステキスト・画像生成のための関係認識型アンタングル学習
- Authors: Geon Park, Seon Bin Kim, Gunho Jung, Seong-Whan Lee,
- Abstract要約: 本稿では,RaDL(Relation-Aware Disentangled Learning)フレームワークを提案する。
RaDLは学習可能なパラメータを通じてインスタンス固有の属性を強化する。
リレーショナル・アテンション(Relation Attention)を介してリレーショナル・アウェア・イメージ特徴を生成する。
- 参考スコア(独自算出の注目度): 26.399022396257795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With recent advancements in text-to-image (T2I) models, effectively generating multiple instances within a single image prompt has become a crucial challenge. Existing methods, while successful in generating positions of individual instances, often struggle to account for relationship discrepancy and multiple attributes leakage. To address these limitations, this paper proposes the relation-aware disentangled learning (RaDL) framework. RaDL enhances instance-specific attributes through learnable parameters and generates relation-aware image features via Relation Attention, utilizing action verbs extracted from the global prompt. Through extensive evaluations on benchmarks such as COCO-Position, COCO-MIG, and DrawBench, we demonstrate that RaDL outperforms existing methods, showing significant improvements in positional accuracy, multiple attributes consideration, and the relationships between instances. Our results present RaDL as the solution for generating images that consider both the relationships and multiple attributes of each instance within the multi-instance image.
- Abstract(参考訳): 近年のテキスト・トゥ・イメージ(T2I)モデルの発展に伴い、単一の画像プロンプト内で複数のインスタンスを効果的に生成することが重要な課題となっている。
既存のメソッドは個々のインスタンスの位置の生成に成功しているが、関係の相違や複数の属性のリークを考慮するのに苦労することが多い。
本稿では,これらの制約に対処するため,関係認識型不整合学習(RaDL)フレームワークを提案する。
RaDLは学習可能なパラメータを通じてインスタンス固有の属性を強化し、Relation Attentionを介して関係認識画像の特徴を生成し、グローバルプロンプトから抽出されたアクション動詞を活用する。
また,COCO-Position,COCO-MIG,DrawBenchなどのベンチマークにおいて,RaDLが既存の手法よりも優れており,位置精度,複数属性の考慮,インスタンス間の関係が著しく改善されていることを示す。
その結果,複数インスタンス画像内の各インスタンスの関係と複数の属性を考慮した画像を生成する方法として,RaDLを提案する。
関連論文リスト
- VSC: Visual Search Compositional Text-to-Image Diffusion Model [15.682990658945682]
本稿では,一対のイメージ埋め込みを利用して属性オブジェクトの結合を改善する新しい合成生成手法を提案する。
提案手法は,複雑なプロンプトをサブプロンプトに分解し,対応する画像を生成し,テキスト埋め込みと融合して表現を強化する視覚プロトタイプを計算する。
提案手法は,T2I CompBenchベンチマークにおける既存の合成テキスト・画像拡散モデルより優れ,画像品質の向上,人間による評価,およびプロンプト内の結合対のスケーリングによる堅牢性の向上を実現している。
論文 参考訳(メタデータ) (2025-05-02T08:31:43Z) - Marmot: Multi-Agent Reasoning for Multi-Object Self-Correcting in Improving Image-Text Alignment [55.74860093731475]
Marmotは、マルチオブジェクトの自己修正にマルチエージェント推論を採用する新しいフレームワークである。
我々は,意思決定検証機構を備えたマルチエージェント自己修正システムを構築した。
実験により、Marmotはオブジェクトのカウント、属性割り当て、空間的関係において精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-04-10T16:54:28Z) - CoLLM: A Large Language Model for Composed Image Retrieval [76.29725148964368]
Composed Image Retrieval (CIR)は、マルチモーダルクエリに基づいた画像検索を目的とした複雑なタスクである。
本稿では,イメージキャプションペアからトリプレットをオンザフライで生成するワンストップフレームワークであるCoLLMを提案する。
我々はLarge Language Models (LLMs) を利用して参照画像の埋め込みと修正テキストを生成する。
論文 参考訳(メタデータ) (2025-03-25T17:59:50Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - SMIR: Efficient Synthetic Data Pipeline To Improve Multi-Image Reasoning [26.986638043619397]
マルチイメージ推論のための合成データ生成パイプラインであるSMiRを紹介する。
我々は160Kの合成トレーニングサンプルを作成し、クローズドソースソリューションに代わる費用対効果を提供する。
SMiR-Benchは200種類の多彩な例からなるマルチイメージ推論ベンチマークである。
論文 参考訳(メタデータ) (2025-01-07T10:21:21Z) - ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Visual Delta Generator with Large Multi-modal Models for Semi-supervised Composed Image Retrieval [50.72924579220149]
Composed Image Retrieval (CIR)は、提供されるテキスト修正に基づいて、クエリに似たイメージを取得するタスクである。
現在の技術は、基準画像、テキスト、ターゲット画像のラベル付き三重項を用いたCIRモデルの教師あり学習に依存している。
本稿では,参照とその関連対象画像を補助データとして検索する半教師付きCIR手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T21:00:22Z) - Learning Comprehensive Representations with Richer Self for
Text-to-Image Person Re-Identification [34.289949134802086]
TIReID(Text-to-image person re-identification)は、クエリテキストに基づいて同一人物の歩行者画像を取得する。
既存のTIReIDの手法では、通常は1対1の画像テキストマッチングの問題として扱われ、ビュー内の画像テキストペア間の関係にのみ焦点をあてる。
我々はLCR$2$Sと呼ばれるフレームワークを提案し、新しい視点から両方のモダリティの表現を学習することで同一のアイデンティティの多対多対応をモデル化する。
論文 参考訳(メタデータ) (2023-10-17T12:39:16Z) - COCO-Counterfactuals: Automatically Constructed Counterfactual Examples
for Image-Text Pairs [4.046773059215044]
本稿では,テキスト・ツー・イメージ拡散モデルを用いた反実例の自動生成のためのフレームワークを提案する。
我々はCOCO-Counterfactuals(ペア画像とテキストキャプションのマルチモーダル対物データセット)を作成するためにフレームワークを使用します。
我々は,COCO-Counterfactualsの品質を人体評価により検証し,既存のマルチモーダルモデルが,我々の対物画像-テキストペアによって挑戦されていることを示す。
論文 参考訳(メタデータ) (2023-09-23T00:16:47Z) - Deep Relational Metric Learning [84.95793654872399]
本稿では,画像クラスタリングと検索のためのディープリレーショナルメトリック学習フレームワークを提案する。
我々は、クラス間分布とクラス内分布の両方をモデル化するために、異なる側面から画像を特徴付ける特徴のアンサンブルを学ぶ。
広く使われているCUB-200-2011、Cars196、Stanford Online Productsデータセットの実験は、我々のフレームワークが既存の深層学習方法を改善し、非常に競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2021-08-23T09:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。