論文の概要: SANEval: Open-Vocabulary Compositional Benchmarks with Failure-mode Diagnosis
- arxiv url: http://arxiv.org/abs/2602.00249v1
- Date: Fri, 30 Jan 2026 19:10:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.076383
- Title: SANEval: Open-Vocabulary Compositional Benchmarks with Failure-mode Diagnosis
- Title(参考訳): SANEval: 失敗モード診断を備えたオープン語彙構成ベンチマーク
- Authors: Rishav Pramanik, Ian E. Nielsen, Jeff Smith, Saurav Pandit, Ravi P. Ramachandran, Zhaozheng Yin,
- Abstract要約: オープン語彙構成評価のための総合的なベンチマークであるSANEval(Spatial, Attribute, Numeracy Evaluation)を紹介する。
SANEvalは大きな言語モデル(LLM)をLLMで強化されたオープンボキャブラリオブジェクト検出器と組み合わせて、構成の付着性を頑健に評価する。
提案手法は, 属性結合, 空間関係, 数値のタスクにまたがる既存のベンチマークと, 統計的に異なる結果とスピアマンのランク相関を達成している。
- 参考スコア(独自算出の注目度): 16.02119252662268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of text-to-image (T2I) models has unlocked unprecedented creative potential, yet their ability to faithfully render complex prompts involving multiple objects, attributes, and spatial relationships remains a significant bottleneck. Progress is hampered by a lack of adequate evaluation methods; current benchmarks are often restricted to closed-set vocabularies, lack fine-grained diagnostic capabilities, and fail to provide the interpretable feedback necessary to diagnose and remedy specific compositional failures. We solve these challenges by introducing SANEval (Spatial, Attribute, and Numeracy Evaluation), a comprehensive benchmark that establishes a scalable new pipeline for open-vocabulary compositional evaluation. SANEval combines a large language model (LLM) for deep prompt understanding with an LLM-enhanced, open-vocabulary object detector to robustly evaluate compositional adherence, unconstrained by a fixed vocabulary. Through extensive experiments on six state-of-the-art T2I models, we demonstrate that SANEval's automated evaluations provide a more faithful proxy for human assessment; our metric achieves a Spearman's rank correlation with statistically different results than those of existing benchmarks across tasks of attribute binding, spatial relations, and numeracy. To facilitate future research in compositional T2I generation and evaluation, we will release the SANEval dataset and our open-source evaluation pipeline.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)モデルの急速な進歩は、前例のない創造的な可能性を解き放ちつつも、複数のオブジェクト、属性、空間的関係を含む複雑なプロンプトを忠実にレンダリングする能力は、依然として重大なボトルネックとなっている。
現在のベンチマークは、しばしばクローズドセットの語彙に制限され、きめ細かい診断能力が欠如しており、特定の構成障害の診断と治療に必要な解釈可能なフィードバックを提供していない。
SANEval(Spatial, Attribute, Numeracy Evaluation)は,オープン語彙合成評価のためのスケーラブルな新しいパイプラインを構築する総合的なベンチマークである。
SANEvalは、大きな言語モデル(LLM)をLLMで強化されたオープンボキャブラリオブジェクト検出器と組み合わせて、固定されたボキャブラリに拘束されずに、構成の密着性を堅牢に評価する。
SNEvalの自動評価は,6つの最先端T2Iモデルに関する広範な実験を通じて,人間の評価に忠実なプロキシを提供することを示した。
コンポジションT2I生成と評価の今後の研究を容易にするため,SANEvalデータセットとオープンソース評価パイプラインをリリースする。
関連論文リスト
- DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。
一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。
その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文 参考訳(メタデータ) (2026-01-07T03:07:52Z) - A Controllable Examination for Long-Context Language Models [62.845852724511964]
本研究では,長文言語モデルを評価するベンチマークである$textbfLongBioBenchを紹介する。
その結果,ほとんどのモデルでは,検索結果に対する意味的理解や基礎的推論が不足していることが判明した。
我々のさらなる分析は、文脈的非コヒーレンスなど、既存の合成ベンチマークで採用されているいくつかの設計選択を示している。
論文 参考訳(メタデータ) (2025-06-03T14:23:06Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - Beyond Coarse-Grained Matching in Video-Text Retrieval [50.799697216533914]
きめ細かい評価のための新しいアプローチを導入する。
テストキャプションを自動的に生成することで,既存のデータセットにアプローチを適用することができる。
きめ細かい評価実験は、このアプローチがきめ細かな違いを理解するモデルの能力を高めることを実証している。
論文 参考訳(メタデータ) (2024-10-16T09:42:29Z) - Advancing Semantic Textual Similarity Modeling: A Regression Framework with Translated ReLU and Smooth K2 Loss [3.435381469869212]
本稿では,Sentence-BERT STSタスクのための革新的な回帰フレームワークを提案する。
これは2つの単純で効果的な損失関数、Translated ReLUとSmooth K2 Lossを提案する。
実験結果から,本手法は7つのSTSベンチマークにおいて有意な性能を達成できることが示された。
論文 参考訳(メタデータ) (2024-06-08T02:52:43Z) - Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - DEE: Dual-stage Explainable Evaluation Method for Text Generation [21.37963672432829]
テキスト生成の品質を推定するための2段階説明可能な評価手法であるDEEを紹介する。
Llama 2 上に構築された DEE は、生成したテキスト中のエラーの効率的な識別を行うためのステージ固有の命令によって導かれる2段階の原理に従う。
このデータセットは、幻覚や毒性などの新たな問題に対処し、DEEの評価基準の範囲を広げる。
論文 参考訳(メタデータ) (2024-03-18T06:30:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。