論文の概要: DynT2I-Eval: A Dynamic Evaluation Framework for Text-to-Image Models
- arxiv url: http://arxiv.org/abs/2605.06170v1
- Date: Thu, 07 May 2026 12:53:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.796523
- Title: DynT2I-Eval: A Dynamic Evaluation Framework for Text-to-Image Models
- Title(参考訳): DynT2I-Eval:テキスト・画像モデルのための動的評価フレームワーク
- Authors: Juntong Wang, Jiarui Wang, Huiyu Duan, Lewei Li, Guangtao Zhai, Xiongkuo Min,
- Abstract要約: テキスト・トゥ・イメージ(T2I)モデルのための完全に自動化された動的評価フレームワークであるDynT2I-Evalを提案する。
長い形式の記述から構造化された視覚意味空間を構築し、プロンプトを制御可能な次元に分解する。
DynT2I-Evalは、テキストアライメント、知覚品質、美学のモデル性能を評価する。
- 参考スコア(独自算出の注目度): 78.62380562116135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text-to-image (T2I) benchmarks largely rely on fixed prompt sets, leaving them vulnerable to overfitting and benchmark contamination once publicly released and repeatedly reused. In this work, we propose DynT2I-Eval, a fully automated dynamic evaluation framework for T2I models. It constructs a structured visual semantic space from long-form descriptions, decomposing prompts into controllable dimensions (e.g., subject, logical constraint, environment, and composition). This enables the continuous generation of fresh prompts via task-specific spaces and difficulty-aware sampling. DynT2I-Eval evaluates model performance across text alignment, perceptual quality, and aesthetics. Heterogeneous outputs are unified into prompt-conditioned pairwise comparisons, allowing a dynamic scheduler, micro-batch aggregation, and weighted Bayesian updates to maintain a stable online leaderboard despite changing prompt distributions and model injection. Experiments with independently sampled prompt streams demonstrate that continually refreshed prompts provide a robust evaluation protocol, reducing the impact of prompt-set-specific tuning. Simulations and ablations further confirm that the proposed ranking framework achieves a strong balance among cold-start convergence, late-entry discovery, and long-run ranking fidelity.
- Abstract(参考訳): 既存のテキスト・トゥ・イメージ(T2I)ベンチマークは、主に固定プロンプトセットに依存しており、オーバーフィッティングやベンチマーク汚染に対して脆弱で、一度公開され、繰り返し再利用されたままである。
本研究では,T2Iモデルのための動的評価フレームワークDynT2I-Evalを提案する。
長い形式の記述から構造化された視覚意味空間を構築し、プロンプトを制御可能な次元(例えば、主題、論理的制約、環境、構成)に分解する。
これにより、タスク固有の空間と困難なサンプリングを通じて、新しいプロンプトを連続的に生成することが可能になる。
DynT2I-Evalは、テキストアライメント、知覚品質、美学のモデル性能を評価する。
不均一な出力は、即時条件付きペアワイズ比較に統一され、動的スケジューラ、マイクロバッチアグリゲーション、および重み付けされたベイズ更新により、迅速な分布やモデルインジェクションの変更にもかかわらず安定したオンラインリーダーボードを維持することができる。
独立にサンプリングされたプロンプトストリームの実験では、継続的にリフレッシュされたプロンプトがロバストな評価プロトコルを提供し、プロンプトセット固有のチューニングの影響を減らすことが示されている。
シミュレーションとアブレーションにより、提案したランキングフレームワークは、コールドスタートコンバージェンス、レイトエントロエント発見、ロングランランキングフィデリティの強いバランスを達成できることを確認した。
関連論文リスト
- Beyond Parameter Finetuning: Test-Time Representation Refinement for Node Classification [59.11332582888994]
グラフニューラルネットワークは、アウト・オブ・ディストリビューションテストのシナリオにおいて、大きなパフォーマンス劣化を示すことが多い。
本稿では,モデルパラメータから潜在表現へ適応対象を遷移させる新しいテスト時間表現ファインタニングフレームワークTTReFTを提案する。
具体的には,(1)特定の介入に対する不確実性誘導ノード選択,(2)事前学習した知識を保存する低ランク表現介入,(3)介入認識型マスク付きオートエンコーダの3つの重要な革新によって,TTReFTはこれを達成している。
論文 参考訳(メタデータ) (2026-01-29T12:17:34Z) - RAPO++: Cross-Stage Prompt Optimization for Text-to-Video Generation via Data Alignment and Test-Time Scaling [59.088798018184235]
textbfRAPO++は、クロスプラットフォームのプロンプト最適化フレームワークである。
トレーニングデータの整合性向上、テスト時の反復スケーリング、大規模言語モデルの微調整を統一する。
RAPO++は意味的アライメント、構成的推論、時間的安定性、物理的妥当性において大きな進歩を遂げている。
論文 参考訳(メタデータ) (2025-10-23T04:45:09Z) - The Telephone Game: Evaluating Semantic Drift in Unified Models [41.650904633974584]
単一の統一モデル(UM)を視覚的理解(画像からテキストへのI2T)と視覚生成(テキストから画像へのT2I)の両方に使用することで、ビジュアル言語モデル(VLM)研究の新しい方向性が開かれた。
FIDとGenEvalはT2I用であり、MMEやMMBenchはI2T用である。
これらの孤立したシングルパスメトリクスは、相互整合性を明らかにしない。概念を"理解"するモデルが、それを"レンダリング"できるのか、意味的な意味を持つのか。
論文 参考訳(メタデータ) (2025-09-04T17:53:52Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - OVERT: A Benchmark for Over-Refusal Evaluation on Text-to-Image Models [91.55634905861827]
Over-refusalは$textitover-refusal$として知られる現象で、T2Iモデルの実用性を減らす。
我々は,OVERT(textbfOVE$r-$textbfR$efusal evaluation on $textbfT$ext-to-image model)を提案する。
論文 参考訳(メタデータ) (2025-05-27T15:42:46Z) - Multi-Modal Language Models as Text-to-Image Model Evaluators [16.675735328424786]
MT2IE(Multimodal Text-to-Image Eval)は、評価のためのプロンプトを反復的に生成する評価フレームワークである。
MT2IEの即時一貫性スコアは,従来文献に紹介されていたスコアよりも高い相関性を示した。
論文 参考訳(メタデータ) (2025-05-01T17:47:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。