論文の概要: PixelArena: A benchmark for Pixel-Precision Visual Intelligence
- arxiv url: http://arxiv.org/abs/2512.16303v1
- Date: Thu, 18 Dec 2025 08:41:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:31.985654
- Title: PixelArena: A benchmark for Pixel-Precision Visual Intelligence
- Title(参考訳): PixelArena:Pixel-Precision Visual Intelligenceのベンチマーク
- Authors: Feng Liang, Sizhe Cheng, Chenqi Yi,
- Abstract要約: PixelArenaでは, セマンティックセマンティック・セマンティック・セマンティック・タスクを用いて, 細粒度生成知能を画素精度で客観的に検証する。
最新のGemini 3 Pro Imageには、ゼロショット設定下で高い忠実度でセマンティックマスクを生成する、創発的な画像生成機能がある。
- 参考スコア(独自算出の注目度): 2.8513276675793855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal large language models that have image output are emerging. Many image generation benchmarks focus on aesthetics instead of fine-grained generation capabilities. In PixelArena, we propose using semantic segmentation tasks to objectively examine their fine-grained generative intelligence with pixel precision. We find the latest Gemini 3 Pro Image has emergent image generation capabilities that generate semantic masks with high fidelity under zero-shot settings, showcasing visual intelligence unseen before and true generalization in new image generation tasks. We further investigate its results, compare them qualitatively and quantitatively with those of other models, and present failure cases. The findings not only signal exciting progress in the field but also provide insights into future research related to multimodality, reasoning, interpretability and benchmarking.
- Abstract(参考訳): 画像出力を持つマルチモーダルな大言語モデルが出現している。
多くの画像生成ベンチマークは、きめ細かい生成機能ではなく美学に焦点を当てている。
PixelArenaでは, セマンティックセマンティック・セマンティック・セマンティック・タスクを用いて, 細粒度生成知能を画素精度で客観的に検証する。
最新のGemini 3 Pro Imageには、ゼロショット設定下で高い忠実度でセマンティックマスクを生成する、創発的な画像生成機能がある。
さらに, 結果について検討し, 定性的に, 定量的に他のモデルと比較し, 現状の故障事例について述べる。
この発見は、この分野におけるエキサイティングな進歩を示唆するだけでなく、マルチモーダリティ、推論、解釈可能性、およびベンチマークに関する将来の研究に関する洞察を提供する。
関連論文リスト
- Prefilled responses enhance zero-shot detection of AI-generated images [2.6581858762749997]
我々は、AI生成画像のゼロショット検出のために、事前訓練された視覚言語モデル(VLM)を探索する。
人間の顔,物体,動物の合成画像を含む3つのベンチマークを用いて,VLMの性能を評価する。
特に「スタイルと合成アーティファクトを調べよう」というタスク対応のフレーズでVLM応答をプリフィルすると、3つの広く使われているオープンソースVLMのマクロF1スコアが最大24%向上する。
論文 参考訳(メタデータ) (2025-05-20T22:44:04Z) - UniToken: Harmonizing Multimodal Understanding and Generation through Unified Visual Encoding [84.87802580670579]
離散表現と連続表現の組み合わせによって視覚入力を符号化する自動回帰生成モデルUniTokenを導入する。
我々の統合ビジュアルエンコーディングフレームワークは、多次元情報を提供しながら、高レベルのセマンティクスと低レベルの詳細の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-04-06T09:20:49Z) - Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。
HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文 参考訳(メタデータ) (2025-03-27T20:50:38Z) - Zero-Shot Detection of AI-Generated Images [54.01282123570917]
AI生成画像を検出するゼロショットエントロピー検出器(ZED)を提案する。
機械によるテキスト検出の最近の研究に触発された私たちのアイデアは、分析対象の画像が実際の画像のモデルと比較してどれだけ驚くかを測定することである。
ZEDは精度の点でSoTAよりも平均3%以上改善されている。
論文 参考訳(メタデータ) (2024-09-24T08:46:13Z) - PatchCraft: Exploring Texture Patch for Efficient AI-generated Image
Detection [39.820699370876916]
本稿では,多種多様な生成モデルを用いて生成した偽画像を識別できる新しいAI生成画像検出器を提案する。
グローバルな意味情報を消去し,テクスチャパッチを強化するために,新しいSmash&Reconstruction前処理を提案する。
我々のアプローチは最先端のベースラインよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2023-11-21T07:12:40Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Generating Annotated High-Fidelity Images Containing Multiple Coherent
Objects [10.783993190686132]
コンテキスト情報を明示的に必要とせずに、複数のオブジェクトで画像を合成できるマルチオブジェクト生成フレームワークを提案する。
我々は,Multi-MNISTおよびCLEVRデータセットを用いた実験により,コヒーレンシーと忠実さの保存方法を示す。
論文 参考訳(メタデータ) (2020-06-22T11:33:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。