論文の概要: The Telephone Game: Evaluating Semantic Drift in Unified Models
- arxiv url: http://arxiv.org/abs/2509.04438v2
- Date: Mon, 06 Oct 2025 17:49:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.651256
- Title: The Telephone Game: Evaluating Semantic Drift in Unified Models
- Title(参考訳): 電話ゲーム:統一されたモデルでセマンティックドリフトを評価する
- Authors: Sabbir Mollah, Rohit Gupta, Sirnam Swetha, Qingyang Liu, Ahnaf Munir, Mubarak Shah,
- Abstract要約: 単一の統一モデル(UM)を視覚的理解(画像からテキストへのI2T)と視覚生成(テキストから画像へのT2I)の両方に使用することで、ビジュアル言語モデル(VLM)研究の新しい方向性が開かれた。
FIDとGenEvalはT2I用であり、MMEやMMBenchはI2T用である。
これらの孤立したシングルパスメトリクスは、相互整合性を明らかにしない。概念を"理解"するモデルが、それを"レンダリング"できるのか、意味的な意味を持つのか。
- 参考スコア(独自算出の注目度): 41.650904633974584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Employing a single, unified model (UM) for both visual understanding (image-to-text: I2T) and visual generation (text-to-image: T2I) has opened a new direction in Visual Language Model (VLM) research. While UMs can also support broader unimodal tasks (e.g., text-to-text, image-to-image), we focus on the core cross-modal pair T2I and I2T. Existing evaluation benchmarks consider these capabilities in isolation: FID and GenEval for T2I, and benchmarks such as MME, MMBench for I2T. These isolated single-pass metrics do not reveal cross-consistency: whether a model that "understands" a concept can also "render" it, nor whether semantic meaning is preserved when cycling between image and text modalities. To address this, we introduce the Semantic Drift Protocol (SDP) for Unified Models, a cyclic evaluation protocol that alternates I2T and T2I over multiple generations to quantify semantic drift. We propose two metrics: (i) Mean Cumulative Drift (MCD), an embedding-based measure of overall semantic drift; and (ii) Multi-Generation GenEval (MGG), an object-level compliance score extending GenEval. To assess generalization beyond COCO dataset, which is widely used in training; we create a new benchmark Nocaps+Docci400, sampled from NoCaps and DOCCI and evaluated on seven recent models. SDP reveals substantial variation in cross-modal stability: some models like BAGEL maintain semantic meaning over many alternations, whereas others like VILA-U drift quickly despite strong single-pass scores. Our results highlight SDP as a necessary complement to standard I2T and T2I evaluations. Code is available at https://github.com/mollahsabbir/Semantic-Drift-in-Unified-Models
- Abstract(参考訳): 単一の統一モデル(UM)を視覚的理解(画像からテキストへのI2T)と視覚生成(テキストから画像へのT2I)の両方に使用することで、ビジュアル言語モデル(VLM)研究の新しい方向性が開かれた。
UMは、より広範なユニモーダルタスク(例えば、テキストからテキストへ、イメージからイメージへ)もサポートできるが、コアの相互モーダルペアであるT2IとI2Tに注力する。
FIDとGenEvalはT2I用であり、MMEやMMBenchはI2T用である。
概念を"理解"するモデルが"レンダリング"できるのか、イメージとテキストのモダリティをサイクリングする際に意味的な意味が保存されるのか。
そこで本研究では,数世代にわたってI2TとT2Iを交換し,セマンティックドリフトを定量化する循環評価プロトコルである,統一モデルのためのセマンティックドリフトプロトコル(SDP)を提案する。
私たちは2つの指標を提案します。
一 総合的意味的ドリフトの埋め込みに基づく平均累積ドリフト(MCD)及び
(ii)GenEvalを拡張するオブジェクトレベルのコンプライアンススコアであるMulti-Generation GenEval(MGG)。
トレーニングで広く使用されているCOCOデータセット以外の一般化を評価するため、NoCapsとDOCCIからサンプルを得たNocaps+Docci400という新しいベンチマークを作成し、7つの最新のモデルで評価する。
BAGELのようなモデルは、多くの変更点に対して意味を保ち、VILA-Uのようなモデルは、強いシングルパススコアにもかかわらず素早くドリフトする。
以上の結果から,SDPは標準I2TおよびT2I評価に欠かせない補完となることが明らかとなった。
コードはhttps://github.com/mollahsabbir/Semantic-Drift-in-Unified-Modelsで入手できる。
関連論文リスト
- Test-Time Consistency in Vision Language Models [26.475993408532304]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
MM-R3のような最近のベンチマークでは、最先端のVLMでさえ意味論的に等価な入力にまたがって分岐予測をもたらすことが強調されている。
教師付き再学習なしにセマンティックな一貫性を高める,シンプルで効果的なテスト時間一貫性フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-27T17:09:44Z) - TIIF-Bench: How Does Your T2I Model Follow Your Instructions? [7.13169573900556]
本稿では, TIIF-Bench (Text-to-Image Instruction following Benchmark) を提案する。
TIIF-Benchは、複数の次元に沿って組織された5000のプロンプトから構成されており、難易度と複雑さの3つのレベルに分類される。
T2Iモデルのテキスト合成精度と美的コヒーレンスを評価するために,テキストレンダリングとスタイル制御という2つの重要な属性が導入された。
論文 参考訳(メタデータ) (2025-06-02T18:44:07Z) - UniCMs: A Unified Consistency Model For Efficient Multimodal Generation and Understanding [12.34529497235534]
一貫性モデル(CM)は、画像とテキストの両方を効率的に生成する可能性を示している。
主な課題は、画像生成とテキスト生成の両方に統一された認知的視点を確立することである。
テキスト・画像生成では、UniCMはGenEval、Image Reward、CLIPスコアでSD3を上回っている。
画像からテキスト生成では、UniCMはMMMUベンチマークのShow-oを上回り、ロングシーケンス生成速度では1.5倍高速である。
論文 参考訳(メタデータ) (2025-02-08T02:52:25Z) - Who Evaluates the Evaluations? Objectively Scoring Text-to-Image Prompt Coherence Metrics with T2IScoreScore (TS2) [62.44395685571094]
T2IScoreScoreはプロンプトを含むセマンティックエラーグラフのキュレートされたセットであり,誤画像の集合である。
これにより、与えられた迅速な忠実度測定値が、客観的な誤差数に対して正しく画像を順序付けできるかどうかを厳格に判断することができる。
最先端のVLMベースのメトリクスは、CLIPScoreのような単純な(そしておそらく悪い)機能ベースのメトリクスを著しく上回りません。
論文 参考訳(メタデータ) (2024-04-05T17:57:16Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。