論文の概要: MAR-MAER: Metric-Aware and Ambiguity-Adaptive Autoregressive Image Generation
- arxiv url: http://arxiv.org/abs/2604.01864v1
- Date: Thu, 02 Apr 2026 10:19:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.678287
- Title: MAR-MAER: Metric-Aware and Ambiguity-Adaptive Autoregressive Image Generation
- Title(参考訳): MAR-MAER:メトリクス認識とあいまいさ適応型自己回帰画像生成
- Authors: Kai Dong, Tingting Bai,
- Abstract要約: 本稿では,革新的階層的自己回帰フレームワークであるMAR-MAERを紹介する。
これは、メートル法を意識した埋め込み正規化法であり、曖昧な意味論を扱うために使われる潜在モデルである。
提案手法は,CLIPScore や HPSv2 などの品質指標とモデルの内部表現を一致させる。
メトリクスの一貫性とセマンティックな柔軟性の両方において優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 1.4552327135549117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive (AR) models have demonstrated significant success in the realm of text-to-image generation. However, they usually face two major challenges. Firstly, the generated images may not always meet the quality standards expected by humans. Furthermore, these models face difficulty when dealing with ambiguous prompts that could be interpreted in several valid ways. To address these issues, we introduce MAR-MAER, an innovative hierarchical autoregressive framework. It combines two main components. It is a metric-aware embedding regularization method. The other one is a probabilistic latent model used for handling ambiguous semantics. Our method utilizes a lightweight projection head, which is trained with an adaptive kernel regression loss function. This aligns the model's internal representations with human-preferred quality metrics, such as CLIPScore and HPSv2. As a result, the embedding space that is learned more accurately reflects human judgment. We are also introducing a conditional variational module. This approach incorporates an aspect of controlled randomness within the hierarchical token generation process. This capability allows the model to produce a diverse array of coherent images based on ambiguous or open-ended prompts. We conducted extensive experiments using COCO and a newly developed Ambiguous-Prompt Benchmark. The results show that MAR-MAER achieves excellent performance in both metric consistency and semantic flexibility. It exceeds the baseline Hi-MAR model's performance, showing an improvement of +1.6 in CLIPScore and +5.3 in HPSv2. For unclear inputs, it produces a notably wider range of outputs. These findings have been confirmed through both human evaluation and automated metrics.
- Abstract(参考訳): 自動回帰(AR)モデルは、テキスト・画像生成の領域で大きな成功を収めている。
しかし、それらは通常2つの大きな課題に直面します。
第一に、生成された画像は必ずしも人間が期待する品質基準を満たすとは限らない。
さらに、これらのモデルは、いくつかの有効な方法で解釈できる曖昧なプロンプトを扱う際に困難に直面している。
これらの問題に対処するために,革新的階層的自己回帰フレームワークであるMAR-MAERを紹介する。
2つの主要コンポーネントを結合する。
これはメートル法を意識した埋め込み正規化法である。
もう1つは、あいまいな意味論を扱うために使われる確率的潜在モデルである。
本手法は,適応型カーネル回帰損失関数を用いて訓練した軽量プロジェクションヘッドを用いる。
これは、モデルの内部表現と、CLIPScoreやHPSv2のような人間の推奨品質メトリクスとを一致させる。
結果として、より正確に学習された埋め込み空間は人間の判断を反映する。
条件付き変分モジュールも導入しています。
このアプローチは階層的トークン生成プロセスにおいて制御されたランダム性の側面を取り入れている。
この能力により、モデルはあいまいなプロンプトやオープンなプロンプトに基づいて、多様なコヒーレントなイメージを生成できる。
我々はCOCOと新たに開発されたAmbiguous-Prompt Benchmarkを用いて広範囲に実験を行った。
その結果,MAR-MAERは,距離整合性とセマンティックフレキシビリティの両面で優れた性能を発揮することがわかった。
これはベースラインのHi-MARモデルの性能を超え、CLIPScoreでは+1.6、HPSv2では+5.3の改善が見られた。
不明瞭な入力に対して、特に広い範囲の出力を生成する。
これらの結果は人的評価と自動測定によって確認されている。
関連論文リスト
- Same Answer, Different Representations: Hidden instability in VLMs [65.36933543377346]
本稿では,内部埋め込みドリフト,スペクトル感度,構造的滑らかさを計測する表現認識・周波数認識評価フレームワークを提案する。
このフレームワークを,SEEDBench,MMMU,POPEデータセットを対象とする最新のビジョン言語モデル(VLM)に適用する。
論文 参考訳(メタデータ) (2026-02-06T12:24:26Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Diffusion Counterfactuals for Image Regressors [1.534667887016089]
拡散型生成モデルを用いて、画像回帰タスクの反実的説明を生成する2つの方法を提案する。
どちらもCelebA-HQと合成データセット上で現実的でセマンティックでスムーズな偽物を生成する。
回帰反事実に対して,特徴の変化は予測値の領域に依存することがわかった。
論文 参考訳(メタデータ) (2025-03-26T14:42:46Z) - Learning-Order Autoregressive Models with Application to Molecular Graph Generation [52.44913282062524]
本稿では,データから逐次推定される確率的順序付けを用いて高次元データを生成するARMの変種を紹介する。
提案手法は,画像およびグラフ生成において有意義な自己回帰順序を学習できることを実験的に実証した。
論文 参考訳(メタデータ) (2025-03-07T23:24:24Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Fluid: Scaling Autoregressive Text-to-image Generative Models with Continuous Tokens [53.99177152562075]
視覚における自己回帰モデルのスケールアップは、大きな言語モデルほど有益でないことが証明されている。
モデルが離散トークンを使用するか、連続トークンを使用するか、BERTやGPTのようなトランスフォーマーアーキテクチャを用いてランダムまたは固定順序でトークンを生成するか、という2つの重要な要素に焦点を当てる。
その結果,すべてのモデルが検証損失の点で効果的にスケールしているのに対して,評価性能はFID,GenEvalスコア,視覚的品質などによって異なる傾向を呈することがわかった。
論文 参考訳(メタデータ) (2024-10-17T17:59:59Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。