論文の概要: ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes
- arxiv url: http://arxiv.org/abs/2605.11680v1
- Date: Tue, 12 May 2026 07:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.669876
- Title: ShapeCodeBench: A Renewable Benchmark for Perception-to-Program Reconstruction of Synthetic Shape Scenes
- Title(参考訳): ShapeCodeBench: 合成形状シーンの知覚とプログラム再構成のための更新可能なベンチマーク
- Authors: Shivam Kumar,
- Abstract要約: ShapeCodeBenchは、認識からプログラムへの再構築のための総合ベンチマークである。
我々は,空のプログラムフロア,古典的コンピュータビジョン評価器,Opus 4.7を高精細度,高精細度,高精細度でGPT-5.5を評価する。
- 参考スコア(独自算出の注目度): 1.0152838128195467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce ShapeCodeBench, a synthetic benchmark for perception-to-program reconstruction: given a rendered raster image, a model must emit an executable drawing program that a deterministic evaluator re-renders and compares with the target. The v1 DSL has four primitives on a 512 x 512 black-on-white canvas, but every instance is generated from a seeded RNG, so fresh held-out sets can be created to reduce exact-instance contamination. We release a frozen eval_v1 split with 150 samples across easy, medium, and hard tiers, scored by exact match, pixel accuracy, foreground IoU, parse success, and execution success. We evaluate an empty-program floor, a classical computer-vision heuristic, Claude Opus 4.7 at high and max effort, and GPT-5.5 at medium and extra_high reasoning effort. The heuristic is competitive on easy scenes but collapses when overlaps fuse components; the strongest multimodal configuration preserves much of the foreground structure but still misses exact match because of small parameter errors. Best overall exact match remains low, so ShapeCodeBench is far from saturated. The benchmark code, frozen dataset, run artifacts, and paper sources are released to support independent replication and extension.
- Abstract(参考訳): 本稿では,認識からプログラムへの再構成のための総合的ベンチマークであるShapeCodeBenchを紹介する。レンダリングされたラスタ画像が与えられた場合,決定論的評価器が再レンダリングし,対象と比べる実行可能な描画プログラムを出力しなければならない。
v1 DSLは512 x 512の白黒キャンバス上に4つのプリミティブを持つが、すべてのインスタンスはシードされたRNGから生成されるため、正確なインスタンス汚染を減らすために新しいホールドアウトセットを作成することができる。
凍結したeval_v1を150個のサンプルで分割し,正確な一致,画素精度,前景IoU,パース成功,実行成功によって評価した。
我々は,空のプログラムフロア,古典的コンピュータビジョンヒューリスティック,クロードオプス4.7高精細度,中高精細度5.5高精細度で評価した。
ヒューリスティックは簡単なシーンでは競合するが、ヒューズ成分が重なり合うと崩壊する。最強のマルチモーダル構成は、前景の構造の多くを保存しているが、小さなパラメータエラーのために正確な一致を見逃している。
総合的な一致は依然として低いため、ShapeCodeBenchは飽和状態には程遠い。
独立したレプリケーションと拡張をサポートするために、ベンチマークコード、凍結データセット、実行アーティファクト、およびペーパーソースがリリースされた。
関連論文リスト
- Covering Human Action Space for Computer Use: Data Synthesis and Benchmark [59.01879944842542]
コンピュータ利用エージェント(CUA)は、GPT-5.4とClaudeによって説明されているように、画面上での作業を自動化する。
しかし、複雑な低周波相互作用に対する信頼性はまだ貧弱であり、ユーザの信頼を制限している。
複雑な相互作用におけるモデルの能力を評価するための新しいベンチマークCUActSpotを提案する。
論文 参考訳(メタデータ) (2026-05-12T17:59:58Z) - ReCoSplat: Autoregressive Feed-Forward Gaussian Splatting Using Render-and-Compare [53.16118137855849]
本稿では,自動回帰フィードフォワードガウススプラッティングモデルであるReCoSplatについて述べる。
コードと事前訓練されたモデルがリリースされる。
論文 参考訳(メタデータ) (2026-03-10T17:58:08Z) - 1D-Bench: A Benchmark for Iterative UI Code Generation with Visual Feedback in Real-World [5.904589000032003]
実電子商取引を基盤としたベンチマークである1D-Benchを導入し、各インスタンスが参照レンダリングとエクスポート中間表現を提供する。
1Dは1日で短く、設計からコーディングまでのタスクを1日以内で効率的に完了する。
論文 参考訳(メタデータ) (2026-02-20T17:46:51Z) - Unleashing Degradation-Carrying Features in Symmetric U-Net: Simpler and Stronger Baselines for All-in-One Image Restoration [52.82397287366076]
オールインワン画像復元は、統合された枠組み内で様々な劣化(ノイズ、ぼかし、悪天候など)を扱うことを目的としている。
本研究では, 優れた特徴抽出法により, 劣化伝達情報を本質的にエンコードする, 重要な知見を明らかにする。
我々の対称設計は固有の劣化信号を頑健に保存し、スキップ接続に単純な加法融合を施す。
論文 参考訳(メタデータ) (2025-12-11T12:20:31Z) - PrismAudio: Decomposed Chain-of-Thoughts and Multi-dimensional Rewards for Video-to-Audio Generation [57.864929968616586]
Video-to-Audio (V2A) の生成には、4つの重要な知覚次元のバランスが必要である。
私たちは、強化学習をV2A世代に統合する最初のフレームワークであるPrismAudioを紹介します。
論文 参考訳(メタデータ) (2025-11-24T07:11:12Z) - Can Visual Input Be Compressed? A Visual Token Compression Benchmark for Large Multimodal Models [30.433778463779618]
We present UniPruneBench, a benchmark for visual token pruning in multimodal model。
UniPruneBenchは、6つの機能ディメンションと10のデータセットにわたる標準化されたプロトコルを提供する。
論文 参考訳(メタデータ) (2025-11-04T15:17:06Z) - WeTok: Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction [15.118980313583805]
WeTokトークンを強力かつ簡潔に導入する。
従来の主要なトークン化ツールを2つのコアイノベーションで上回っている。
主要なベンチマークの実験では、WeTokの優れたパフォーマンスが示されています。
論文 参考訳(メタデータ) (2025-08-07T17:41:26Z) - {\mu}Split: efficient image decomposition for microscopy data [50.794670705085835]
muSplitは、蛍光顕微鏡画像の文脈で訓練された画像分解のための専用アプローチである。
本稿では,大規模な画像コンテキストのメモリ効率向上を実現するメタアーキテクチャである横型文脈化(LC)を提案する。
muSplitを5つの分解タスクに適用し、1つは合成データセットに、もう4つは実際の顕微鏡データから導出する。
論文 参考訳(メタデータ) (2022-11-23T11:26:24Z) - MatchFormer: Interleaving Attention in Transformers for Feature Matching [31.175513306917654]
そこで我々は,MatchFormerと呼ばれる新しい階層型抽出・整合変換器を提案する。
特徴抽出のための自己注意と特徴マッチングのための相互注意をインターリーブし、人間の直感的な抽出・マッチング方式を実現する。
この戦略のおかげで、MatchFormerは効率、堅牢性、精度のマルチウィンソリューションである。
論文 参考訳(メタデータ) (2022-03-17T22:49:14Z) - Corrupted Image Modeling for Self-Supervised Visual Pre-Training [103.99311611776697]
自己教師型視覚前訓練のためのCIM(Corrupted Image Modeling)を提案する。
CIMは、小さなトレーニング可能なBEiTを備えた補助発電機を使用して、人工マスクトークンを使用する代わりに入力イメージを破損させる。
事前トレーニング後、エンハンサーは下流タスク用の高容量ビジュアルエンコーダとして使用できる。
論文 参考訳(メタデータ) (2022-02-07T17:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。