論文の概要: Trade-offs in Image Generation: How Do Different Dimensions Interact?
- arxiv url: http://arxiv.org/abs/2507.22100v1
- Date: Tue, 29 Jul 2025 17:59:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:17.774123
- Title: Trade-offs in Image Generation: How Do Different Dimensions Interact?
- Title(参考訳): 画像生成におけるトレードオフ: 異なる次元はどのように相互作用するか?
- Authors: Sicheng Zhang, Binzhu Xie, Zhonghao Yan, Yuli Zhang, Donghao Zhou, Xiaofei Chen, Shi Qiu, Jiaqi Liu, Guoyang Xie, Zhichao Lu,
- Abstract要約: TRIG-Bench (Trade-offs in Image Generation) は10次元にまたがる。
また,様々な次元に自動的に適応するVLM-as-judgeメトリックであるTRIGScoreを開発した。
TRIG-Bench と TRIGScore に基づいて,T2I と I2I のタスクにまたがる14のモデルを評価する。
- 参考スコア(独自算出の注目度): 25.562005844882883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model performance in text-to-image (T2I) and image-to-image (I2I) generation often depends on multiple aspects, including quality, alignment, diversity, and robustness. However, models' complex trade-offs among these dimensions have rarely been explored due to (1) the lack of datasets that allow fine-grained quantification of these trade-offs, and (2) the use of a single metric for multiple dimensions. To bridge this gap, we introduce TRIG-Bench (Trade-offs in Image Generation), which spans 10 dimensions (Realism, Originality, Aesthetics, Content, Relation, Style, Knowledge, Ambiguity, Toxicity, and Bias), contains 40,200 samples, and covers 132 pairwise dimensional subsets. Furthermore, we develop TRIGScore, a VLM-as-judge metric that automatically adapts to various dimensions. Based on TRIG-Bench and TRIGScore, we evaluate 14 models across T2I and I2I tasks. In addition, we propose the Relation Recognition System to generate the Dimension Trade-off Map (DTM) that visualizes the trade-offs among model-specific capabilities. Our experiments demonstrate that DTM consistently provides a comprehensive understanding of the trade-offs between dimensions for each type of generative model. Notably, we show that the model's dimension-specific weaknesses can be mitigated through fine-tuning on DTM to enhance overall performance. Code is available at: https://github.com/fesvhtr/TRIG
- Abstract(参考訳): テキスト画像(T2I)と画像画像画像生成(I2I)のモデル性能は、品質、アライメント、多様性、堅牢性など、複数の側面に依存することが多い。
しかし,これらの領域におけるモデル間の複雑なトレードオフは,(1)細粒度の定量化が可能なデータセットの欠如,(2)複数の次元に単一メートル法を用いることにより,研究されることは稀である。
このギャップを埋めるために, TRIG-Bench (Trade-offs in Image Generation) を導入し, 10次元(Realism, Originality, Aesthetics, Content, Relation, Style, Knowledge, Ambiguity, Toxicity, Bias)にまたがって, 40,200のサンプルと132の対次元部分集合をカバーする。
さらに,様々な次元に自動的に適応するVLM-as-judgeメトリックであるTRIGScoreを開発した。
TRIG-Bench と TRIGScore に基づいて,T2I と I2I のタスクにまたがる14のモデルを評価する。
さらに,モデル固有機能間のトレードオフを可視化する次元トレードオフマップ(DTM)を生成する関係認識システムを提案する。
我々の実験は、DTMが各種類の生成モデルにおける次元間のトレードオフの包括的理解を一貫して提供することを示した。
特に,DTMの微調整により,モデルの寸法比の弱点を緩和し,全体的な性能を向上できることを示す。
コードは、https://github.com/fesvhtr/TRIGで入手できる。
関連論文リスト
- Attributes Shape the Embedding Space of Face Recognition Models [0.0]
顔認識タスクはディープニューラルネットワークの出現によって大きな進歩を遂げた。
埋め込み空間に現れるマルチスケールな幾何学構造を観察する。
これらの属性に対するFRモデルの依存性や不変性を記述するための幾何学的手法を提案する。
論文 参考訳(メタデータ) (2025-07-15T14:44:39Z) - DIMCIM: A Quantitative Evaluation Framework for Default-mode Diversity and Generalization in Text-to-Image Generative Models [11.080727606381524]
我々は、デフォルトモードの多様性を基準無しで測定するDod-it/Can-itフレームワーク、DIM-CIMを紹介する。
1.5Bから8.1Bパラメータへのスケーリングでは,既定モードの多様性を犠牲にして,広く使用されているモデルが一般化されることがわかった。
また、DIMCIMを用いて、T2Iモデルのトレーニングデータを評価し、トレーニング画像の多様性とデフォルトモードの多様性との相関関係を0.85で観測する。
論文 参考訳(メタデータ) (2025-06-05T14:53:34Z) - GeoWizard: Unleashing the Diffusion Priors for 3D Geometry Estimation from a Single Image [94.56927147492738]
単一画像から幾何学的属性を推定するための新しい生成基盤モデルであるGeoWizardを紹介する。
拡散前処理の活用は,資源利用における一般化,詳細な保存,効率性を著しく向上させることが示唆された。
本稿では,様々なシーンの複雑なデータ分布を,個別のサブディストリビューションに分離する,シンプルかつ効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-03-18T17:50:41Z) - Benchmarking Spatial Relationships in Text-to-Image Generation [102.62422723894232]
本研究では,オブジェクト間の空間的関係を正確に生成するテキスト・ツー・イメージモデルについて検討する。
画像中にテキストで記述された空間関係がどれだけ正確に生成されるかを測定する評価指標であるVISORを提案する。
我々の実験では、最先端のT2Iモデルは高画質であるが、複数のオブジェクトを生成できる能力や、それらの間の空間的関係が著しく制限されていることが判明した。
論文 参考訳(メタデータ) (2022-12-20T06:03:51Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Manifold Topology Divergence: a Framework for Comparing Data Manifolds [109.0784952256104]
本研究では,深部生成モデルの評価を目的としたデータ多様体の比較フレームワークを開発する。
クロスバーコードに基づき,manifold Topology Divergence score(MTop-Divergence)を導入する。
MTop-Divergenceは,様々なモードドロップ,モード内崩壊,モード発明,画像乱れを正確に検出する。
論文 参考訳(メタデータ) (2021-06-08T00:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。