論文の概要: Slow Perception: Let's Perceive Geometric Figures Step-by-step
- arxiv url: http://arxiv.org/abs/2412.20631v2
- Date: Sun, 26 Jan 2025 23:16:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:50:52.993955
- Title: Slow Perception: Let's Perceive Geometric Figures Step-by-step
- Title(参考訳): スローパーセプション:幾何図形をステップバイステップで知覚しよう
- Authors: Haoran Wei, Youyang Yin, Yumeng Li, Jia Wang, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Daxin Jiang,
- Abstract要約: 私たちは、正確なコピー(強い知覚)が視覚的なo1への第一歩だと信じています。
本稿では,モデルが基本点-線の組み合わせを徐々に知覚するように導く「スロー知覚(SP)」の概念を紹介する。
- 参考スコア(独自算出の注目度): 53.69067976062474
- License:
- Abstract: Recently, "visual o1" began to enter people's vision, with expectations that this slow-thinking design can solve visual reasoning tasks, especially geometric math problems. However, the reality is that current LVLMs (Large Vision Language Models) can hardly even accurately copy a geometric figure, let alone truly understand the complex inherent logic and spatial relationships within geometric shapes. We believe accurate copying (strong perception) is the first step to visual o1. Accordingly, we introduce the concept of "slow perception" (SP), which guides the model to gradually perceive basic point-line combinations, as our humans, reconstruct complex geometric structures progressively. There are two-fold stages in SP: a) perception decomposition. Perception is not instantaneous. In this stage, complex geometric figures are broken down into basic simple units to unify geometry representation. b) perception flow, which acknowledges that accurately tracing a line is not an easy task. This stage aims to avoid "long visual jumps" in regressing line segments by using a proposed "perceptual ruler" to trace each line stroke-by-stroke. Surprisingly, such a human-like perception manner enjoys an inference time scaling law -- the slower, the better. Researchers strive to speed up the model's perception in the past, but we slow it down again, allowing the model to read the image step-by-step and carefully.
- Abstract(参考訳): 近年、「視覚的o1」が人々の視界に入り始めており、このゆっくりとしたデザインは視覚的推論、特に幾何学的数学的な問題を解くことができると期待されている。
しかし、現実には、現在のLVLM (Large Vision Language Models) は幾何学的図形を正確に模倣することは困難であり、幾何学的図形の中の複雑な固有の論理と空間的関係を真に理解することはできる。
私たちは、正確なコピー(強い知覚)が視覚的なo1への第一歩だと信じています。
そこで我々は,人間として,複雑な幾何学的構造を徐々に再構築し,基本点と基本点の組合せを徐々に知覚する「スロー・インセプション(SP)」の概念を紹介した。
SPには2つのステージがあります。
a) 知覚の分解。
知覚は即時ではない。
この段階において、複素幾何学的図形は、幾何学的表現を統一する基本的な単純な単位に分解される。
b) 線を正確にトレースすることは容易な作業ではないと認める知覚の流れ
このステージは、各行のストロークをストロークごとにトレースするために提案された"知覚的定規"を使用することで、行セグメントの回帰における"ロングビジュアルジャンプ"を回避することを目的としている。
意外なことに、そのような人間のような知覚は、推論時間のスケーリング法則を楽しむ。
研究者は過去にモデルの知覚をスピードアップしようと努力したが、再び速度を低下させ、モデルがステップバイステップで注意深く画像を読み取ることを可能にする。
関連論文リスト
- Geometry-biased Transformers for Novel View Synthesis [36.11342728319563]
入力画像と関連するカメラ視点が与えられたオブジェクトの新規ビューを合成するタスクに取り組む。
我々の研究は、マルチビュー画像を(グローバル)セットラテント表現としてエンコードする最近の「幾何学自由」アプローチにインスパイアされている。
本稿では, 幾何学的帰納バイアスをセットレイト表現に基づく推論に組み込んだ「幾何学バイアス変換器」(GBT)を提案する。
論文 参考訳(メタデータ) (2023-01-11T18:59:56Z) - PTR: A Benchmark for Part-based Conceptual, Relational, and Physical
Reasoning [135.2892665079159]
PTRと呼ばれる大規模診断用視覚推論データセットを新たに導入する。
PTRは70kのRGBD合成画像と地上の真実のオブジェクトと部分レベルのアノテーションを含んでいる。
このデータセット上で、いくつかの最先端の視覚的推論モデルを調べ、それらがまだ多くの驚くべき誤りを犯していることを観察する。
論文 参考訳(メタデータ) (2021-12-09T18:59:34Z) - PQA: Perceptual Question Answering [35.051664704756995]
知覚組織は、人間の視覚システムに関する数少ない確立された理論の1つである。
本稿では,2つの位置変化を提唱し,知覚的組織の研究を振り返る。
複雑な実画像ではなく、意図的に生成された合成データを調べる。
次に、人間の心理学からの洞察を借りて、知覚的組織を自己意識の問題とみなすエージェントを設計する。
論文 参考訳(メタデータ) (2021-04-08T08:06:21Z) - ShaRF: Shape-conditioned Radiance Fields from a Single View [54.39347002226309]
本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。
この手法の核心は,対象物の幾何学的足場の推定である。
合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2021-02-17T16:40:28Z) - Predictive coding feedback results in perceived illusory contours in a
recurrent neural network [0.0]
脳にインスパイアされたリカレントダイナミクスを備えたディープフィードフォワード畳み込みネットワークを備える。
照明輪郭の知覚にはフィードバック接続が関与する可能性が示唆された。
論文 参考訳(メタデータ) (2021-02-03T09:07:09Z) - Perspective: A Phase Diagram for Deep Learning unifying Jamming, Feature
Learning and Lazy Training [4.318555434063275]
ディープラーニングアルゴリズムは、画像認識やgoプレイなど、さまざまなタスクにおける技術革命の責任を負う。
しかし、なぜ働くのかは分かっていない。
最終的に、彼らは高い次元に横たわるデータを分類することに成功しました。
我々は、異なる学習体制をフェーズダイアグラムにまとめることができると論じる。
論文 参考訳(メタデータ) (2020-12-30T11:00:36Z) - Object-Centric Diagnosis of Visual Reasoning [118.36750454795428]
本稿では,地平とロバスト性に基づく視覚的推論の体系的対象中心の診断について述べる。
我々は,グラフ推論機械という診断モデルを開発した。
本モデルは、純粋に象徴的な視覚的表現を確率的シーングラフに置き換え、教師の強制訓練をビジュアル推論モジュールに適用する。
論文 参考訳(メタデータ) (2020-12-21T18:59:28Z) - Visual Chirality [51.685596116645776]
視覚データの統計が反射によってどのように変化するかを検討する。
我々の研究は、データ強化、自己教師付き学習、画像鑑定に影響を及ぼす。
論文 参考訳(メタデータ) (2020-06-16T20:48:23Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z) - Chained Representation Cycling: Learning to Estimate 3D Human Pose and
Shape by Cycling Between Representations [73.11883464562895]
本稿では,教師なし,あるいは教師なしの学習を容易にする新しいアーキテクチャを提案する。
本研究では,非ペア画像と無注釈画像から3次元人物のポーズと形状を学習することにより,その手法を実証する。
人間をモデル化するための結果を示す一方で、私たちの定式化は一般的であり、他の視覚問題にも適用できる。
論文 参考訳(メタデータ) (2020-01-06T14:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。