論文の概要: Coding the Visual World: From Image to Simulation Using Vision Language Models
- arxiv url: http://arxiv.org/abs/2601.05344v1
- Date: Thu, 08 Jan 2026 19:49:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:49.754409
- Title: Coding the Visual World: From Image to Simulation Using Vision Language Models
- Title(参考訳): ビジュアルワールドのコーディング:視覚言語モデルを用いた画像からシミュレーションへ
- Authors: Sagi Eppel,
- Abstract要約: 本研究では,視覚言語モデル(VLM)による画像内のシステム認識とシミュレートの能力について検討する。
VLMは現実世界のシステムの自然なイメージを与えられ、システムを記述し、それをシミュレートして生成するコードを書く。
このアプローチは、物理的システム(波、光、雲)から植生、都市、材料、地質形成まで、様々な複雑な創発システムでテストされている。
- 参考スコア(独自算出の注目度): 2.6034777771586946
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The ability to construct mental models of the world is a central aspect of understanding. Similarly, visual understanding can be viewed as the ability to construct a representative model of the system depicted in an image. This work explores the capacity of Vision Language Models (VLMs) to recognize and simulate the systems and mechanisms depicted in images using the Im2Sim methodology. The VLM is given a natural image of a real-world system (e.g., cities, clouds, vegetation) and is tasked with describing the system and writing code that simulates and generates it. This generative code is then executed to produce a synthetic image, which is compared against the original. This approach is tested on various complex emergent systems, ranging from physical systems (waves, lights, clouds) to vegetation, cities, materials, and geological formations. Through analysis of the models and images generated by the VLMs, we examine their understanding of the systems in images. The results show that leading VLMs (GPT, Gemini) demonstrate the capacity to understand and model complex, multi-component systems across multiple layers of abstraction and a wide range of domains. At the same time, the VLMs exhibit limited ability to replicate fine details and low-level arrangements of patterns in the image. These findings reveal an interesting asymmetry: VLMs combine high-level, deep visual understanding of images with limited perception of fine details.
- Abstract(参考訳): 世界のメンタルモデルを構築する能力は、理解の中心的な側面である。
同様に、視覚的理解は、画像に描かれたシステムの代表モデルを構築する能力であると見なすことができる。
本研究は,Im2Sim法を用いて画像に表現されたシステムやメカニズムを認識・シミュレートする視覚言語モデル(VLM)の能力について検討する。
VLMには、現実世界のシステム(都市、雲、植生など)の自然なイメージが与えられ、システムを記述し、それをシミュレートして生成するコードを記述する。
そして、この生成コードを実行して合成画像を生成し、原画像と比較する。
このアプローチは、物理的システム(波、光、雲)から植生、都市、材料、地質形成まで、様々な複雑な創発システムでテストされている。
VLMが生成したモデルと画像の分析を通じて,画像中のシステムに対する理解について検討する。
その結果,VLM(GPT,Gemini)は,複数の抽象化層と幅広い領域にわたる複雑なマルチコンポーネントシステムを理解し,モデル化する能力を示した。
同時に、VLMは画像内の細部や低レベルのパターンを再現する能力に制限がある。
これらの発見は興味深い非対称性を示しており、VLMは画像の高レベルで深い視覚的理解と細部を限定した知覚を組み合わせている。
関連論文リスト
- Seeing through Imagination: Learning Scene Geometry via Implicit Spatial World Modeling [68.14113731953971]
本稿では,人間のような想像力をシミュレートするインプリシット・スパットIaLwOrldモデリングパラダイムMILOを紹介する。
提案手法は,複数のベースラインとベンチマークにまたがる空間推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2025-12-01T16:01:41Z) - Reading Images Like Texts: Sequential Image Understanding in Vision-Language Models [9.24989979549793]
VLM(Vision-Language Models)は、様々な現実世界のタスクにおいて顕著なパフォーマンスを示す。
これらのモデルは通常、画像のシリアライズによって視覚情報を処理する。
本稿では,デコード効率を向上させるために,プラグアンドプレイ型ビジュアルデコーダに基づく命令非依存のトークン圧縮アルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-09-23T16:07:18Z) - TWIST & SCOUT: Grounding Multimodal LLM-Experts by Forget-Free Tuning [54.033346088090674]
TWIST と SCOUT は,事前学習したMLLM に視覚的接地能力を持たせるフレームワークである。
モデルを効果的に微調整するために,SCOUTと呼ばれる高品質な合成データセットを生成する。
このデータセットは、ステップバイステップのマルチモーダル推論プロセスを記述する、豊富な監視信号を提供する。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Re-Thinking Inverse Graphics With Large Language Models [51.333105116400205]
逆グラフィックス -- イメージを物理変数に反転させ、レンダリングすると観察されたシーンの再現を可能にする -- は、コンピュータビジョンとグラフィックスにおいて根本的な課題である。
LLMを中心とした逆グラフフレームワークである逆グラフ大言語モデル(IG-LLM)を提案する。
我々は、凍結した事前学習されたビジュアルエンコーダと連続的な数値ヘッドを組み込んで、エンドツーエンドのトレーニングを可能にする。
論文 参考訳(メタデータ) (2024-04-23T16:59:02Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々はDraw-and-Understandフレームワークを提案し、視覚的プロンプト理解機能をMLLM(Multimodal Large Language Models)に統合する方法を探る。
視覚的なプロンプトにより、ユーザーはマルチモーダルなインストラクションを通じて対話することができ、モデルの対話性ときめ細かなイメージ理解を高めることができる。
本稿では,様々な学習済みMLLMに適応し,様々な視覚的プロンプトを認識可能な汎用アーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - A Vision Check-up for Language Models [61.852026871772914]
テキストのモデルを用いて、予備的な視覚表現学習システムをどのように訓練するかを示す。
自己教師付き視覚表現学習の実験は、自然画像のセマンティックアセスメントを行うことができる視覚モデルを訓練する可能性を強調している。
論文 参考訳(メタデータ) (2024-01-03T18:09:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。