論文の概要: MultiRef: Controllable Image Generation with Multiple Visual References
- arxiv url: http://arxiv.org/abs/2508.06905v1
- Date: Sat, 09 Aug 2025 09:36:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.608543
- Title: MultiRef: Controllable Image Generation with Multiple Visual References
- Title(参考訳): MultiRef:複数ビジュアル参照による制御可能な画像生成
- Authors: Ruoxi Chen, Dongping Chen, Siyuan Wu, Sinan Wang, Shiyun Lang, Petr Sushko, Gaoyang Jiang, Yao Wan, Ranjay Krishna,
- Abstract要約: 本稿では,複数の視覚参照を用いた制御可能な画像生成の課題に焦点をあてる。
990個の実世界のサンプルと1,000個の実世界のサンプルからなる厳密な評価フレームワークであるMultiRef-benchを紹介する。
我々の実験では、最先端のシステムでさえマルチ参照条件付けに苦戦していることが明らかとなった。
- 参考スコア(独自算出の注目度): 14.348561045469738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual designers naturally draw inspiration from multiple visual references, combining diverse elements and aesthetic principles to create artwork. However, current image generative frameworks predominantly rely on single-source inputs -- either text prompts or individual reference images. In this paper, we focus on the task of controllable image generation using multiple visual references. We introduce MultiRef-bench, a rigorous evaluation framework comprising 990 synthetic and 1,000 real-world samples that require incorporating visual content from multiple reference images. The synthetic samples are synthetically generated through our data engine RefBlend, with 10 reference types and 33 reference combinations. Based on RefBlend, we further construct a dataset MultiRef containing 38k high-quality images to facilitate further research. Our experiments across three interleaved image-text models (i.e., OmniGen, ACE, and Show-o) and six agentic frameworks (e.g., ChatDiT and LLM + SD) reveal that even state-of-the-art systems struggle with multi-reference conditioning, with the best model OmniGen achieving only 66.6% in synthetic samples and 79.0% in real-world cases on average compared to the golden answer. These findings provide valuable directions for developing more flexible and human-like creative tools that can effectively integrate multiple sources of visual inspiration. The dataset is publicly available at: https://multiref.github.io/.
- Abstract(参考訳): ビジュアルデザイナは自然に複数の視覚的参照からインスピレーションを受け、多様な要素と美的原則を組み合わせてアートワークを作成する。
しかし、現在の画像生成フレームワークは、主にテキストプロンプトまたは個々の参照イメージという、単一のソース入力に依存している。
本稿では,複数の視覚参照を用いた制御可能な画像生成の課題に焦点をあてる。
我々は,MultiRef-benchを紹介した。MultiRef-benchは990個の合成サンプルと1,000個の実世界のサンプルからなる厳密な評価フレームワークで,複数の参照画像から視覚的コンテンツを組み込む必要がある。
合成サンプルはデータエンジンのRefBlendで合成され、10種類の参照型と33種類の参照の組み合わせで合成される。
RefBlendに基づいて,38kの高品質な画像を含むデータセットMultiRefを構築し,さらなる研究を促進する。
OmniGen,ACE,Show-oの3つのインターリーブ画像テキストモデル(例:ChatDiT, LLM + SD)と6つのエージェントフレームワーク(例:ChatDiT, LLM + SD)による実験により,最先端のシステムでさえマルチ参照条件に苦しむことが明らかとなった。
これらの発見は、視覚的インスピレーションの複数の源を効果的に統合できる、より柔軟で人間らしく創造的なツールを開発する上で、貴重な方向を提供する。
データセットは、https://multiref.github.io/.com/で公開されている。
関連論文リスト
- Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - T2I-CompBench++: An Enhanced and Comprehensive Benchmark for Compositional Text-to-image Generation [55.16845189272573]
T2I-CompBench++は、合成テキスト・画像生成のための拡張ベンチマークである。
8000のコンポジションテキストプロンプトは、属性バインディング、オブジェクト関係、生成数、複雑なコンポジションの4つのグループに分類される。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - OBELICS: An Open Web-Scale Filtered Dataset of Interleaved Image-Text
Documents [122.55393759474181]
我々は、インターリーブされた画像テキスト文書のオープンなWebスケールフィルタリングデータセットであるOBELICSを紹介する。
データセット作成プロセスを説明し、包括的なフィルタリングルールを示し、データセットの内容を分析する。
IDEFICSという名前の9~800億のパラメータのビジョンと言語モデルをトレーニングし、異なるマルチモーダルベンチマークで競合性能を得る。
論文 参考訳(メタデータ) (2023-06-21T14:01:01Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - I Want This Product but Different : Multimodal Retrieval with Synthetic
Query Expansion [22.158569214786606]
本稿では,合成画像をアンカーとして使用し,生成画像と対象画像の埋め込み距離を最適化する新しいトリプルトマイニング手法を提案する。
提案手法は,合成画像による検索イラストレーションの付加価値と,カスタマイズとユーザフィードバックに焦点をあてて,他のマルチモーダル生成手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2021-02-17T17:02:13Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。