論文の概要: MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2511.22989v1
- Date: Fri, 28 Nov 2025 08:49:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.828326
- Title: MultiBanana: A Challenging Benchmark for Multi-Reference Text-to-Image Generation
- Title(参考訳): MultiBanana: マルチ参照テキスト・画像生成のためのベンチマーク
- Authors: Yuta Oshima, Daiki Miyake, Kohsei Matsutani, Yusuke Iwasawa, Masahiro Suzuki, Yutaka Matsuo, Hiroki Furuta,
- Abstract要約: $textbfMultiBanana$は、大規模なマルチ参照固有の問題を広くカバーすることによって、モデル機能のエッジを評価するように設計されている。
分析の結果、優れたパフォーマンス、典型的な障害モード、改善すべき領域が明らかになりました。
MultiBananaはオープンなベンチマークとしてリリースされ、バウンダリをプッシュし、マルチ参照画像生成における公正な比較のための標準化された基盤を確立する。
- 参考スコア(独自算出の注目度): 38.21587139161503
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent text-to-image generation models have acquired the ability of multi-reference generation and editing; the ability to inherit the appearance of subjects from multiple reference images and re-render them under new contexts. However, the existing benchmark datasets often focus on the generation with single or a few reference images, which prevents us from measuring the progress on how model performance advances or pointing out their weaknesses, under different multi-reference conditions. In addition, their task definitions are still vague, typically limited to axes such as "what to edit" or "how many references are given", and therefore fail to capture the intrinsic difficulty of multi-reference settings. To address this gap, we introduce $\textbf{MultiBanana}$, which is carefully designed to assesses the edge of model capabilities by widely covering multi-reference-specific problems at scale: (1) varying the number of references, (2) domain mismatch among references (e.g., photo vs. anime), (3) scale mismatch between reference and target scenes, (4) references containing rare concepts (e.g., a red banana), and (5) multilingual textual references for rendering. Our analysis among a variety of text-to-image models reveals their superior performances, typical failure modes, and areas for improvement. MultiBanana will be released as an open benchmark to push the boundaries and establish a standardized basis for fair comparison in multi-reference image generation. Our data and code are available at https://github.com/matsuolab/multibanana .
- Abstract(参考訳): 近年のテキスト・ツー・イメージ生成モデルでは,複数の参照画像から被写体を継承し,新たなコンテキスト下で再レンダリングする,マルチ参照生成と編集の能力が得られている。
しかし、既存のベンチマークデータセットは、単一のまたは少数の参照イメージで生成することに重点を置いていることが多いため、異なるマルチ参照条件下でモデルパフォーマンスの進行状況や弱点を指摘できない。
さらに、それらのタスク定義はいまだ曖昧であり、「編集するもの」や「参照数」のような軸に限られているため、マルチ参照設定の固有の難しさを捉えることができない。
このギャップに対処するために、例えば、(1)参照数の変化、(2)参照間のドメインミスマッチ(例、写真対アニメ)、(3)参照とターゲットシーン間のスケールミスマッチ、(4)レアな概念(例、レッドバナナ)を含む参照、(5)レンダリングのための多言語テキスト参照など、モデル機能のエッジを評価するために慎重に設計された$\textbf{MultiBanana}$を紹介します。
様々なテキスト・ツー・イメージ・モデルによる分析では、優れたパフォーマンス、典型的な障害モード、改善すべき領域が明らかになっている。
MultiBananaはオープンなベンチマークとしてリリースされ、バウンダリをプッシュし、マルチ参照画像生成における公正な比較のための標準化された基盤を確立する。
私たちのデータとコードはhttps://github.com/matsuolab/multibanana.comで公開されています。
関連論文リスト
- M$^{3}$T2IBench: A Large-Scale Multi-Category, Multi-Instance, Multi-Relation Text-to-Image Benchmark [39.51629719911405]
本稿では,M$3$T2IBench,大規模マルチカテゴリ,マルチインスタンス,マルチリレーション,オブジェクト検出に基づく評価指標である$AlignScore$を紹介する。
その結果,現在のオープンソーステキスト・ツー・イメージモデルでは,この挑戦的なベンチマークでは性能が低かったことが判明した。
画像テキストのアライメントを向上させるために,Revise-Then-Enforceアプローチを提案する。
論文 参考訳(メタデータ) (2025-10-27T05:32:50Z) - Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。
また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文 参考訳(メタデータ) (2024-08-07T11:20:37Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。