論文の概要: Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation
- arxiv url: http://arxiv.org/abs/2603.17508v1
- Date: Wed, 18 Mar 2026 09:10:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.593753
- Title: Omni-I2C: A Holistic Benchmark for High-Fidelity Image-to-Code Generation
- Title(参考訳): Omni-I2C:高忠実な画像コード生成のためのホロスティックベンチマーク
- Authors: Jiawei Zhou, Chi Zhang, Xiang Feng, Qiming Zhang, Haibo Qiu, Lihuo He, Dengpan Ye, Xinbo Gao, Jing Zhang,
- Abstract要約: 我々は,複雑な構造化デジタルグラフィックスを実行可能なコードに変換する上で,LMM(Large Multimodal Models)の能力を評価するために設計されたベンチマークであるOmni-I2Cを提案する。
真のユーザソースのケースを組み込むことで、このベンチマークは広範囲のデジタルコンテンツにまたがる。
評価の結果,主要なLMM間の性能差が顕著であることがわかった。
- 参考スコア(独自算出の注目度): 59.87131391492088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Omni-I2C, a comprehensive benchmark designed to evaluate the capability of Large Multimodal Models (LMMs) in converting complex, structured digital graphics into executable code. We argue that this task represents a non-trivial challenge for the current generation of LMMs: it demands an unprecedented synergy between high-fidelity visual perception -- to parse intricate spatial hierarchies and symbolic details -- and precise generative expression -- to synthesize syntactically sound and logically consistent code. Unlike traditional descriptive tasks, Omni-I2C requires a holistic understanding where any minor perceptual hallucination or coding error leads to a complete failure in visual reconstruction. Omni-I2C features 1080 meticulously curated samples, defined by its breadth across subjects, image modalities, and programming languages. By incorporating authentic user-sourced cases, the benchmark spans a vast spectrum of digital content -- from scientific visualizations to complex symbolic notations -- each paired with executable reference code. To complement this diversity, our evaluation framework provides necessary depth; by decoupling performance into perceptual fidelity and symbolic precision, it transcends surface-level accuracy to expose the granular structural failures and reasoning bottlenecks of current LMMs. Our evaluation reveals a substantial performance gap among leading LMMs; even state-of-the-art models struggle to preserve structural integrity in complex scenarios, underscoring that multimodal code generation remains a formidable challenge. Data and code are available at https://github.com/MiliLab/Omni-I2C.
- Abstract(参考訳): 我々は、複雑な構造化デジタルグラフィックスを実行可能なコードに変換する際に、LMM(Large Multimodal Models)の能力を評価するために設計された包括的なベンチマークであるOmni-I2Cを提案する。
複雑な空間的階層と記号的詳細を解析し、正確な生成表現を解析し、構文的に健全で論理的に一貫したコードを合成するために、高忠実な視覚知覚と前例のない相乗効果を要求する。
従来の記述的タスクとは異なり、Omni-I2Cは視覚的再構成において、小さな知覚の幻覚やコーディングエラーが完全な失敗につながるような全体論的理解を必要とする。
Omni-I2Cは、1080の精巧にキュレートされたサンプルを特徴としている。
真のユーザソースのケースを組み込むことで、このベンチマークは、科学的視覚化から複雑な記号表記まで、幅広いデジタルコンテンツの範囲にまたがる。
この多様性を補完するために,我々の評価フレームワークは,性能を知覚的忠実度と記号的精度に分解することで,表面レベルの精度を超越して,現在のLMMのきめ細かい構造的欠陥を明らかにし,ボトルネックを推論する。
現状のモデルでさえ、複雑なシナリオにおける構造的整合性を維持するのに苦労しており、マルチモーダルコード生成が依然として重大な課題であることを示している。
データとコードはhttps://github.com/MiliLab/Omni-I2Cで入手できる。
関連論文リスト
- MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Dynamic Granularity Matters: Rethinking Vision Transformers Beyond Fixed Patch Splitting [15.751224470424786]
ビジョントランスフォーマー(ViT)は、グローバルな依存関係をキャプチャする強力な能力を示しているが、多くの場合、きめ細かい局所的な詳細を効率的に表現するのに苦労している。
Grc-ViT(Granularity-driven Vision Transformer)は、画像の複雑さに基づいて視覚的な粒度を適応的に調整する動的粗い微細化フレームワークである。
2つの学習可能なパラメータとベータは、グローバルな推論と局所的な知覚のバランスを取るためにエンドツーエンドに最適化されている。
論文 参考訳(メタデータ) (2025-11-24T11:55:22Z) - Wave-Particle (Continuous-Discrete) Dualistic Visual Tokenization for Unified Understanding and Generation [20.2075487635278]
Continuous tokenizer (CT)は、複数の理解モジュールと生成モジュールをブリッジすることで、強力なパフォーマンスを実現する。
離散トークン化器(DT)は、各画像をプリミティブに定量化することで概念的にエレガントなアイデアを提供する。
我々はCDD-VT(Continuous-Discrete Dualistic Visual Tokenizer)を提案する。
論文 参考訳(メタデータ) (2025-11-03T13:58:32Z) - Describe-to-Score: Text-Guided Efficient Image Complexity Assessment [5.744778242421451]
コンピュータビジョンにおいて、画像複雑性(IC)の正確な評価が重要である。
ICモデリングのための視覚テキスト融合を導入する。
本稿では,事前学習された視覚言語モデルを用いて画像キャプションを生成するD2S(Describe-to-Score)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-20T10:17:25Z) - OmniGenBench: A Benchmark for Omnipotent Multimodal Generation across 50+ Tasks [77.19223035769248]
大規模マルチモーダルモデル(LMM)の最近のブレークスルーは、画像生成のための汎用的な指示に従うのに顕著な熟練性を示している。
OmniGenBenchは、最先端のLMMの指示追従能力を評価するために、精密に設計された新しいベンチマークである。
我々のOmniGenBenchには57の多様なサブタスクが含まれており、それらが要求する特定のモデル能力に応じて体系的に分類されている。
論文 参考訳(メタデータ) (2025-05-24T16:29:34Z) - SynerGen-VL: Towards Synergistic Image Understanding and Generation with Vision Experts and Token Folding [66.74446220401296]
画像の理解と生成の両方が可能なシンプルだが強力なエンコーダのないMLLMであるSynerGen-VLを提案する。
トークンの折り畳み機構と,高分解能画像理解を効果的に支援するビジョンエキスパートベースのプログレッシブアライメント事前学習戦略を導入する。
コードとモデルはリリースされます。
論文 参考訳(メタデータ) (2024-12-12T18:59:26Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。