論文の概要: The Telephone Game: Evaluating Semantic Drift in Unified Models
- arxiv url: http://arxiv.org/abs/2509.04438v1
- Date: Thu, 04 Sep 2025 17:53:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.247899
- Title: The Telephone Game: Evaluating Semantic Drift in Unified Models
- Title(参考訳): 電話ゲーム:統一されたモデルでセマンティックドリフトを評価する
- Authors: Sabbir Mollah, Rohit Gupta, Sirnam Swetha, Qingyang Liu, Ahnaf Munir, Mubarak Shah,
- Abstract要約: Unified Consistency Framework for Unified Models (UCF-UM)
UCF-UMは数世代にわたってI2TとT2Iを交換し、セマンティックドリフトを定量化する。
結果は,標準I2TおよびT2I評価の補足として循環整合性を強調した。
- 参考スコア(独自算出の注目度): 41.650904633974584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Employing a single, unified model (UM) for both visual understanding (image-to-text: I2T) and and visual generation (text-to-image: T2I) has opened a new direction in Visual Language Model (VLM) research. While UMs can also support broader unimodal tasks (e.g., text-to-text, image-to-image), we focus on the core cross-modal pair T2I and I2T, as consistency between understanding and generation is critical for downstream use. Existing evaluations consider these capabilities in isolation: FID and GenEval for T2I, and benchmarks such as MME, MMBench for I2T. These single-pass metrics do not reveal whether a model that understands a concept can also render it, nor whether meaning is preserved when cycling between image and text modalities. To address this, we introduce the Unified Consistency Framework for Unified Models (UCF-UM), a cyclic evaluation protocol that alternates I2T and T2I over multiple generations to quantify semantic drift. UCF formulates 3 metrics: (i) Mean Cumulative Drift (MCD), an embedding-based measure of overall semantic loss; (ii) Semantic Drift Rate (SDR), that summarizes semantic decay rate; and (iii) Multi-Generation GenEval (MGG), an object-level compliance score extending GenEval. To assess generalization beyond COCO, which is widely used in training; we create a new benchmark ND400, sampled from NoCaps and DOCCI and evaluate on seven recent models. UCF-UM reveals substantial variation in cross-modal stability: some models like BAGEL maintain semantics over many alternations, whereas others like Vila-u drift quickly despite strong single-pass scores. Our results highlight cyclic consistency as a necessary complement to standard I2T and T2I evaluations, and provide practical metrics to consistently assess unified model's cross-modal stability and strength of their shared representations. Code: https://github.com/mollahsabbir/Semantic-Drift-in-Unified-Models
- Abstract(参考訳): 単一の統一モデル(UM)を視覚的理解(画像からテキストへのI2T)と視覚生成(テキストから画像へのT2I)の両方に使用することで、ビジュアル言語モデル(VLM)研究の新しい方向性が開かれた。
UMは、より広範なユニモーダルタスク(例えば、テキストからテキストへ、イメージからイメージへ)もサポートできるが、下流での使用には、理解と生成の一貫性が不可欠であるため、コアのクロスモーダルペアであるT2IとI2Tに焦点を当てる。
FIDとGenEvalはT2I、ベンチマークはMME、MMBenchはI2Tである。
これらのシングルパスメトリクスは、概念を理解するモデルがそれをレンダリングできるかどうか、また、画像とテキストのモダリティをサイクリングする際に意味が保存されているかどうかを明らかにしない。
そこで本研究では,複数世代にわたってI2TとT2Iを交換し,セマンティックドリフトを定量化する循環評価プロトコルUCF-UMを提案する。
UCFは3つの指標を定式化します。
一 総合的意味損失の埋め込みに基づく尺度、平均累積ドリフト(MCD)
セマンティックドリフトレート(SDR)
3 MGG(Multi-Generation GenEval)は、GenEvalを拡張したオブジェクトレベルのコンプライアンススコアである。
トレーニングで広く使用されているCOCO以外の一般化を評価するため,NoCapsとDOCCIからサンプル化した新しいベンチマークND400を作成し,最近の7つのモデルで評価する。
例えば、BAGELのようなモデルは、多くの変更点に対してセマンティクスを維持し、Vira-uのようなモデルは、強いシングルパススコアにもかかわらず素早くドリフトする。
本結果は,標準I2TおよびT2I評価の補足として循環的整合性を強調し,統一モデルのクロスモーダル安定性と共有表現の強度を一貫して評価するための実測値を提供する。
コード:https://github.com/mollahsabbir/Semantic-Drift-in-Unified-Models
関連論文リスト
- Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding [12.34529497235534]
一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。
主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。
テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。
画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
論文 参考訳(メタデータ) (2025-02-08T02:52:25Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。