論文の概要: Evaluating Generative Models via One-Dimensional Code Distributions
- arxiv url: http://arxiv.org/abs/2603.08064v2
- Date: Thu, 12 Mar 2026 11:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:25.434552
- Title: Evaluating Generative Models via One-Dimensional Code Distributions
- Title(参考訳): 1次元符号分布による生成モデルの評価
- Authors: Zexi Jia, Pengcheng Luo, Yijia Zhong, Jinchao Zhang, Jie Zhou,
- Abstract要約: 現代の1D画像トークンライザは、セマンティック情報と知覚情報の両方を予測可能なトークン統計としてエンコードしている。
トークン空間におけるトレーニング不要分布指標であるCodebook Histogram Distance(CHD)とCode Mixture Model Score(CMMS)を紹介する。
本研究では,62の視覚形態と12の生成モデルからなる210K画像のベンチマークであるVisFormを提案する。
- 参考スコア(独自算出の注目度): 20.971484798914158
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most evaluations of generative models rely on feature-distribution metrics such as FID, which operate on continuous recognition features that are explicitly trained to be invariant to appearance variations, and thus discard cues critical for perceptual quality. We instead evaluate models in the space of discrete visual tokens, where modern 1D image tokenizers compactly encode both semantic and perceptual information and quality manifests as predictable token statistics. We introduce Codebook Histogram Distance (CHD), a training-free distribution metric in token space, and Code Mixture Model Score (CMMS), a no-reference quality metric learned from synthetic degradations of token sequences. To stress-test metrics under broad distribution shifts, we further propose VisForm, a benchmark of 210K images spanning 62 visual forms and 12 generative models with expert annotations. Across AGIQA, HPDv2/3, and VisForm, our token-based metrics achieve state-of-the-art correlation with human judgments. We will release all code and datasets to facilitate future research, with the code publicly available at https://github.com/zexiJia/1d-Distance.
- Abstract(参考訳): 生成モデルのほとんどの評価は、FIDのような特徴分布の指標に依存しており、これは、外見のバリエーションに不変であるように明示的に訓練された連続認識機能で動作し、知覚的品質に重要なキューを破棄する。
代わりに、離散的な視覚トークンの空間におけるモデルを評価し、現代の1次元画像トークンは、意味的情報と知覚的情報の両方をコンパクトに符号化し、品質表示を予測可能なトークン統計として表現する。
本稿では,トークン空間におけるトレーニング不要分布指標であるCodebook Histogram Distance(CHD)と,トークン配列の合成分解から学習した非参照品質指標であるCode Mixture Model Score(CMMS)を紹介する。
さらに,62の視覚形態と12の生成モデルからなる210K画像のベンチマークであるVisFormを提案する。
AGIQA、HPDv2/3、VisForm全体で、トークンベースのメトリクスは人間の判断と最先端の相関を達成します。
将来の研究を促進するために、すべてのコードとデータセットをリリースします。
関連論文リスト
- Representation Integrity in Temporal Graph Learning Methods [0.40611352512781873]
実世界のシステムは、時間とともにトポロジーが変化する動的グラフとして自然にモデル化される。
我々はこの要求を表現整合性として定式化し、グラフの変化にいかに密着した変化を追随するかを測定する指標の族を導出する。
次に、この指標を用いて、一般的な動的グラフ学習モデルの表現整合性の比較研究を行う。
論文 参考訳(メタデータ) (2025-11-25T21:37:00Z) - Mind-the-Glitch: Visual Correspondence for Detecting Inconsistencies in Subject-Driven Generation [120.23172120151821]
本稿では,事前学習した拡散モデルのバックボーンから視覚的特徴と意味的特徴を分離するための新しいアプローチを提案する。
注釈付きセマンティックと視覚対応を備えた画像ペアを構築する自動パイプラインを導入する。
被験者駆動画像生成における視覚的不整合を定量化する新しい指標であるビジュアルセマンティックマッチングを提案する。
論文 参考訳(メタデータ) (2025-09-26T07:11:55Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。
我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。
我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文 参考訳(メタデータ) (2023-11-30T13:22:15Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - Feature Likelihood Divergence: Evaluating the Generalization of
Generative Models Using Samples [25.657798631897908]
Feature Likelihood Divergenceは、生成モデルの包括的なトリコトミック評価を提供する。
我々は,以前に提案された指標が失敗した場合でも,FLDが過度に適合する問題を識別できることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T04:57:27Z) - MAUVE Scores for Generative Models: Theory and Practice [95.86006777961182]
本報告では,テキストや画像の生成モデルで発生するような分布のペア間の比較尺度であるMAUVEについて述べる。
我々は、MAUVEが人間の文章の分布と現代のニューラル言語モデルとのギャップを定量化できることを発見した。
我々は、MAUVEが既存のメトリクスと同等以上の画像の既知の特性を識別できることを視覚領域で実証する。
論文 参考訳(メタデータ) (2022-12-30T07:37:40Z) - Evaluation Metrics for Conditional Image Generation [100.69766435176557]
クラス条件画像生成設定において生成モデルを評価するための2つの新しい指標を提案する。
理論的分析は、提案されたメトリクスの背景にあるモチベーションを示し、新しいメトリクスと条件のないメトリクスを結びつける。
我々は,実験的な評価を行い,その指標を条件のない変種や他の指標と比較し,既存の生成モデルの解析に利用した。
論文 参考訳(メタデータ) (2020-04-26T12:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。