論文の概要: Probing Visual Planning in Image Editing Models
- arxiv url: http://arxiv.org/abs/2604.22868v1
- Date: Thu, 23 Apr 2026 19:00:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.011529
- Title: Probing Visual Planning in Image Editing Models
- Title(参考訳): 画像編集モデルにおける視覚計画の提案
- Authors: Zhimu Zhou, Yanpeng Zhao, Qiuyu Liao, Bo Zhao, Xiaojian Ma,
- Abstract要約: 本稿では,一段階のイメージ変換として視覚計画を再構成する編集・アズ・ア・レーソンのパラダイムであるEARを提案する。
固有推論を視覚認識から分離するために,探索課題として抽象パズルを用いる。
- 参考スコア(独自算出の注目度): 9.427970566064213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual planning represents a crucial facet of human intelligence, especially in tasks that require complex spatial reasoning and navigation. Yet, in machine learning, this inherently visual problem is often tackled through a verbal-centric lens. While recent research demonstrates the promise of fully visual approaches, they suffer from significant computational inefficiency due to the step-by-step planning-by-generation paradigm. In this work, we present EAR, an editing-as-reasoning paradigm that reformulates visual planning as a single-step image transformation. To isolate intrinsic reasoning from visual recognition, we employ abstract puzzles as probing tasks and introduce AMAZE, a procedurally generated dataset that features the classical Maze and Queen problems, covering distinct, complementary forms of visual planning. The abstract nature of AMAZE also facilitates automatic evaluation of autoregressive and diffusion-based models in terms of both pixel-wise fidelity and logical validity. We assess leading proprietary and open-source editing models. The results show that they all struggle in the zero-shot setting, finetuning on basic scales enables remarkable generalization to larger in-domain scales and out-of-domain scales and geometries. However, our best model that runs on high-end hardware fails to match the zero-shot efficiency of human solvers, highlighting a persistent gap in neural visual reasoning.
- Abstract(参考訳): 視覚計画は、特に複雑な空間的推論とナビゲーションを必要とするタスクにおいて、人間の知性の重要な側面である。
しかし、機械学習では、この本質的に視覚的な問題は、しばしば言語中心のレンズによって取り組まれる。
近年の研究では、完全な視覚的アプローチの可能性を実証しているが、ステップバイステップのプランニング・バイ・ジェネレーションのパラダイムにより、計算の非効率性が著しく低下している。
本研究では,一段階のイメージ変換として視覚計画を再構成する編集・アズ・ア・レーソンのパラダイムであるEARを提案する。
視覚認識から本質的な推論を分離するために,抽象パズルを探索課題として採用し,従来の迷路と女王の問題を特徴とする手続き的に生成されたデータセットであるAMAZEを導入する。
AMAZEの抽象的性質は、ピクセルワイド忠実度と論理的妥当性の両方の観点から自己回帰モデルと拡散モデルの自動評価を容易にする。
主要なプロプライエタリおよびオープンソース編集モデルを評価する。
その結果, 基本スケールの微調整により, ドメイン内スケールや領域外スケール, ジオメトリーの大幅な一般化が可能となった。
しかし、ハイエンドハードウェア上で動作する私たちの最良のモデルは、人間の問題解決者のゼロショット効率と一致せず、神経視覚的推論の持続的なギャップを浮き彫りにする。
関連論文リスト
- VISion On Request: Enhanced VLLM efficiency with sparse, dynamically selected, vision-language interactions [51.41587958253802]
視覚情報を捨てることなく推論コストを削減するVISOR(VISion On Request)を導入する。
VISORは画像とテキストトークン間の相互作用をスパースすることで効率を向上する。
実験により、VISORは、最先端の結果を一致または超えながら、計算コストを大幅に削減することが示された。
論文 参考訳(メタデータ) (2026-03-24T17:58:17Z) - A Saccade-inspired Approach to Image Classification using Vision Transformer Attention Maps [0.9332987715848716]
人間の視覚システムからインスピレーションを得て、よりスマートな画像処理モデルを作成します。
自己教師型視覚変換器であるDINOを用いて,視覚空間の重要領域に情報処理を集中させるササードインスピレーション方式を提案する。
この選択的処理戦略は、フルイメージの分類性能の大部分を保ち、場合によっては性能も向上する。
論文 参考訳(メタデータ) (2026-03-10T12:54:55Z) - MentisOculi: Revealing the Limits of Reasoning with Mental Imagery [63.285794947638614]
視覚的解決が可能な多段階推論問題の組である MentisOculi を開発した。
遅延トークンから明示的な生成画像まで,視覚的戦略を評価すると,一般的にはパフォーマンス向上に失敗する。
以上の結果から,視覚的思考がモデル推論の恩恵を受けていないことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T18:49:06Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - Unfolding Spatial Cognition: Evaluating Multimodal Models on Visual Simulations [61.235500325327585]
既存のAIベンチマークは、主に言語推論を評価し、非言語的で多段階の視覚シミュレーションの複雑さを無視している。
STAREは,マルチモーダルな大規模言語モデルを視覚シミュレーションによりよりよく解いたタスクで厳格に評価するためのベンチマークである。
評価の結果,より単純な2次元変換よりもモデルの方が優れているが,より複雑なタスクにおいてランダムに近い確率で実行可能であることがわかった。
論文 参考訳(メタデータ) (2025-06-05T05:09:46Z) - Solving the Clustering Reasoning Problems by Modeling a Deep-Learning-Based Probabilistic Model [1.7955614278088239]
我々は,Bongard-Logoで高い推論精度を実現する深層学習に基づく確率モデルであるPMoCを紹介する。
PMoCは視覚的抽象的推論において比較的弱い確率論的アプローチを再活性化する。
論文 参考訳(メタデータ) (2024-03-05T18:08:29Z) - Look, Remember and Reason: Grounded reasoning in videos with language
models [5.3445140425713245]
マルチテンポラル言語モデル(LM)は、最近ビデオ上の高レベル推論タスクにおいて有望な性能を示した。
オブジェクト検出,再識別,追跡など,低レベルなサロゲートタスクに対するLMエンドツーエンドのトレーニングを提案し,低レベルな視覚能力を備えたモデルを実現する。
我々は、ACRE、CATER、Some-Else、STARデータセットからの多様な視覚的推論タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-06-30T16:31:14Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Tuning computer vision models with task rewards [88.45787930908102]
モデル予測と意図された使用法とのミスは、コンピュータビジョンモデルの展開に有害である。
自然言語処理では、モデルとタスク報酬を整合させる強化学習技術を用いて、この問題に対処することが多い。
我々はこのアプローチを採用し、オブジェクト検出、汎視的セグメンテーション、着色、画像キャプションなど、複数のコンピュータビジョンタスクにまたがる驚くべき効果を示す。
論文 参考訳(メタデータ) (2023-02-16T11:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。