論文の概要: Geo-Code: A Code Framework for Reverse Code Generation from Geometric Images Based on Two-Stage Multi-Agent Evolution
- arxiv url: http://arxiv.org/abs/2602.07749v1
- Date: Sun, 08 Feb 2026 00:48:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.786851
- Title: Geo-Code: A Code Framework for Reverse Code Generation from Geometric Images Based on Two-Stage Multi-Agent Evolution
- Title(参考訳): Geo-Code:2段階のマルチエージェント進化に基づく幾何学的画像からの逆コード生成のためのコードフレームワーク
- Authors: Zhenyu Wu, Yanxi Long, Jian Li, Hua Huang,
- Abstract要約: マルチエージェントシステムに基づく幾何画像のための最初の逆プログラミングフレームワークであるGeo-coderを提案する。
提案手法は,画素アンカーとメートル法駆動のコード進化による幾何学的モデリングに革新的に分離する。
実験により,ジオコーダは幾何再構成精度と視覚的整合性の両方に大きく貢献することが示された。
- 参考スコア(独自算出の注目度): 22.312869477454864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Program code serves as a bridge linking vision and logic, providing a feasible supervisory approach for enhancing the multimodal reasoning capability of large models through geometric operations such as auxiliary line construction and perspective transformation. Nevertheless, current inverse graphics methods face tremendous challenges in accurately reconstructing complex geometric details, which often results in the loss of key geometric constraints or structural distortion. To address this bottleneck, we propose Geo-coder -- the first inverse programming framework for geometric images based on a multi-agent system. Our method innovatively decouples the process into geometric modeling via pixel-wise anchoring and metric-driven code evolution: Stage 1 leverages the complementary advantages of visual operators and large models to achieve precise capture of pixel coordinates and visual attributes; Stage 2 introduces a synthesis-rendering-validation closed loop, where bidirectional visual feedback drives the self-correction of code. Extensive experiments demonstrate that Geo-coder achieves a substantial lead in both geometric reconstruction accuracy and visual consistency. Notably, by effectively preserving the core geometric semantics, the images reconstructed with our method exhibit equivalent performance to the original ones in multimodal reasoning tasks, which fully validates the robustness of the framework. Finally, to further reduce research costs, we have open-sourced the Geo-coder dataset constructed on the GeoCode framework, which contains more than 1,500 samples. On this basis, we have also open-sourced the GeocodeLM model, laying a solid data and model foundation for subsequent research in this field.
- Abstract(参考訳): プログラムコードは、視覚と論理をリンクするブリッジとして機能し、補助線構築やパースペクティブ変換といった幾何学的操作を通じて、大規模モデルのマルチモーダル推論能力を高めるための、実現可能な監督的アプローチを提供する。
しかし、現在の逆グラフ法は複雑な幾何学的詳細を正確に再構築する上で大きな課題に直面しており、しばしば鍵となる幾何学的制約や構造的歪みが失われる。
このボトルネックに対処するため,マルチエージェントシステムに基づく幾何画像のための最初の逆プログラミングフレームワークであるGeo-coderを提案する。
ステージ1は、視覚演算子と大規模モデルの相補的な利点を活用して、画素座標と視覚属性の正確な取得を実現し、ステージ2は、双方向の視覚フィードバックがコードの自己補正を駆動する合成レンダリング検証閉ループを導入する。
大規模な実験により、ジオコーダは幾何的再構成精度と視覚的整合性の両方において大きなリードを達成している。
特に,中心となる幾何学的意味論を効果的に保存することにより,本手法で再構成した画像は,マルチモーダル推論タスクにおける原画像と同等の性能を示し,フレームワークの堅牢性を完全に検証する。
最後に、研究コストをさらに削減するために、1500以上のサンプルを含むGeoCodeフレームワーク上に構築されたGeo-coderデータセットをオープンソース化しました。
そこで我々は,GeocodeLMモデルをオープンソースとして公開し,この分野での今後の研究のための固体データとモデル基盤を構築した。
関連論文リスト
- GeoWorld: Unlocking the Potential of Geometry Models to Facilitate High-Fidelity 3D Scene Generation [68.02988074681427]
画像から3Dのシーン生成にビデオモデルを利用する以前の研究は、幾何学的歪みやぼやけた内容に悩まされる傾向にある。
本稿では,幾何学モデルの可能性を解き放つことにより,画像から3次元のシーン生成のパイプラインを再構築する。
我々のGeoWorldは、1つの画像と所定のカメラ軌道から高忠実度3Dシーンを生成することができ、定性的かつ定量的に先行手法より優れている。
論文 参考訳(メタデータ) (2025-11-28T13:55:45Z) - GeoMVD: Geometry-Enhanced Multi-View Generation Model Based on Geometric Information Extraction [15.701540201818192]
マルチビュー画像生成はコンピュータビジョンにおいて重要な応用価値を持つ。
単一画像の拡張に依存する既存の手法では、クロスビューの一貫性を維持する上で、注目すべき計算課題に直面している。
本稿では,多視点幾何情報を抽出する機構を組み込んだ幾何誘導多視点拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-11-15T13:17:18Z) - GeoX: Geometric Problem Solving Through Unified Formalized Vision-Language Pre-training [45.42400674977197]
GeoXは幾何学的理解と推論タスクに焦点を当てたマルチモーダルな大規模モデルである。
図形エンコーダとシンボルデコーダを開発するために,単調な事前学習を導入し,幾何学的画像やコーパスの理解を深める。
本研究では,識別クエリを生成し,不均一に分布した幾何学的信号から不定形表現を除去するジェネレータ・アンド・サンプラー変換器(GS-Former)を提案する。
論文 参考訳(メタデータ) (2024-12-16T15:20:03Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。
本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。
実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文 参考訳(メタデータ) (2024-03-15T12:24:36Z) - Self-supervised Geometric Perception [96.89966337518854]
自己教師付き幾何知覚(self-supervised geometric perception)は、基底幾何モデルラベルなしで対応マッチングのための特徴記述子を学ぶためのフレームワークである。
また,SGPは,地上トラスラベルを用いて訓練した教師付きオークルよりも同等か優れる最先端性能を達成できることを示す。
論文 参考訳(メタデータ) (2021-03-04T15:34:43Z) - Graph Signal Processing for Geometric Data and Beyond: Theory and
Applications [55.81966207837108]
グラフ信号処理(GSP)は、不規則な領域に存在する処理信号を可能にする。
GSP法は、幾何データとグラフの接続をブリッジすることで、統一的に幾何データに対する手法である。
最近開発されたグラフニューラルネットワーク(GNN)は、GSPの観点からこれらのネットワークの動作を解釈している。
論文 参考訳(メタデータ) (2020-08-05T03:20:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。