Fugu-MT 論文翻訳(概要): 3D Visual Illusion Depth Estimation

論文の概要: 3D Visual Illusion Depth Estimation

arxiv url: http://arxiv.org/abs/2505.13061v1
Date: Mon, 19 May 2025 12:51:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-20 14:57:11.597077
Title: 3D Visual Illusion Depth Estimation
Title（参考訳）: 3次元視差深度推定
Authors: CHengtang Yao, Zhidan Liu, Jiaxi Zeng, Lidong Yu, Yuwei Wu, Yunde Jia,
Abstract要約: 3次元視覚錯覚は、2次元平面を操作して3次元空間関係をシミュレートする知覚現象である。本稿では,機械の視覚系が,単眼と両眼の深度推定を含む3次元視覚錯覚にひどく騙されていることを明らかにする。
参考スコア（独自算出の注目度）: 27.15757281613792
License: http://creativecommons.org/licenses/by/4.0/
Abstract: 3D visual illusion is a perceptual phenomenon where a two-dimensional plane is manipulated to simulate three-dimensional spatial relationships, making a flat artwork or object look three-dimensional in the human visual system. In this paper, we reveal that the machine visual system is also seriously fooled by 3D visual illusions, including monocular and binocular depth estimation. In order to explore and analyze the impact of 3D visual illusion on depth estimation, we collect a large dataset containing almost 3k scenes and 200k images to train and evaluate SOTA monocular and binocular depth estimation methods. We also propose a robust depth estimation framework that uses common sense from a vision-language model to adaptively select reliable depth from binocular disparity and monocular depth. Experiments show that SOTA monocular, binocular, and multi-view depth estimation approaches are all fooled by various 3D visual illusions, while our method achieves SOTA performance.
Abstract（参考訳）: 3次元視覚錯視は、2次元平面を操作して三次元空間関係をシミュレートし、平面アートワークや物体を人間の視覚系で3次元的に見せるという知覚現象である。本稿では,機械の視覚系が,単眼と両眼の深度推定を含む3次元視覚錯覚にひどく騙されていることを明らかにする。 3次元視覚錯視が深度推定に与える影響を探索・解析するために,約3kのシーンと200kの画像を含む大規模なデータセットを収集し,SOTA単眼・双眼深度推定法を訓練・評価した。また,両眼の視差と単眼深度から信頼性の高い深度を適応的に選択するために,視覚言語モデルから共通感覚を用いた頑健な深度推定フレームワークを提案する。実験の結果,SOTA単眼・双眼・多視点深度推定手法は様々な3次元視覚錯覚によってすべて騙され,本手法はSOTAの性能を達成できることがわかった。

関連論文リスト

Ross3D: Reconstructive Visual Instruction Tuning with 3D-Awareness [73.72335146374543]
本稿では,3次元視覚指導を訓練手順に組み込んだ3次元視覚指導法(Ross3D)について紹介する。 Ross3Dは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-04-02T16:59:55Z)
Weakly Supervised Monocular 3D Detection with a Single-View Image [58.57978772009438]
モノクロ3D検出は、単一視点画像からの正確な3Dオブジェクトのローカライゼーションを目的としている。 SKD-WM3Dは弱い教師付き単分子3D検出フレームワークである。我々は,SKD-WM3Dが最先端技術を超え,多くの完全教師付き手法と同等であることを示した。
論文参考訳（メタデータ） (2024-02-29T13:26:47Z)
3D Concept Learning and Reasoning from Multi-View Images [96.3088005719963]
3次元多視点視覚質問応答のための大規模ベンチマーク(3DMV-VQA)を提案する。このデータセットは、約5kのシーンと600kのイメージで構成され、50kの質問と組み合わせられている。本稿では,ニューラルネットワーク,2次元事前学習型視覚言語モデル,ニューラル推論演算子をシームレスに組み合わせた新しい3次元概念学習・推論フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-20T17:59:49Z)
Monocular 3D Object Detection with Depth from Motion [74.29588921594853]
我々は、正確な物体深度推定と検出にカメラエゴモーションを利用する。我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。我々のフレームワークは、KITTIベンチマークにおいて最先端の手法よりも大きなマージンで優れている。
論文参考訳（メタデータ） (2022-07-26T15:48:46Z)
Learning Ego 3D Representation as Ray Tracing [42.400505280851114]
我々は、制約のないカメラビューからエゴ3D表現学習のための新しいエンドツーエンドアーキテクチャを提案する。レイトレーシングの原理にインスパイアされた我々は、学習可能なエゴ3D表現として「虚視」の偏極格子を設計する。我々のモデルはすべての最先端の代替品を著しく上回ります。
論文参考訳（メタデータ） (2022-06-08T17:55:50Z)
Learning Geometry-Guided Depth via Projective Modeling for Monocular 3D Object Detection [70.71934539556916]
射影モデルを用いて幾何学誘導深度推定を学習し, モノクル3次元物体検出を推し進める。具体的には,モノクロ3次元物体検出ネットワークにおける2次元および3次元深度予測の投影モデルを用いた原理的幾何式を考案した。本手法は, 適度なテスト設定において, 余分なデータを2.80%も加えることなく, 最先端単分子法の検出性能を著しく向上させる。
論文参考訳（メタデータ） (2021-07-29T12:30:39Z)
Disentangling and Vectorization: A 3D Visual Perception Approach for Autonomous Driving Based on Surround-View Fisheye Cameras [3.485767750936058]
多次元ベクトルは、異なる次元と段階で生成される有効情報を含むことが提案されている。実魚眼画像実験により,本手法は実時間で最先端の精度を達成できることが実証された。
論文参考訳（メタデータ） (2021-07-19T13:24:21Z)
MonoGRNet: A General Framework for Monocular 3D Object Detection [23.59839921644492]
幾何学的推論によるモノクロ画像からのアモーダル3次元物体検出のためのMonoGRNetを提案する。 MonoGRNetは、モノラル3Dオブジェクト検出タスクを2Dオブジェクト検出、インスタンスレベルの深さ推定、投影された3Dセンター推定、ローカルコーナー回帰を含む4つのサブタスクに分解する。 KITTI、Cityscapes、MS COCOデータセットで実験が行われた。
論文参考訳（メタデータ） (2021-04-18T10:07:52Z)
Monocular Differentiable Rendering for Self-Supervised 3D Object Detection [21.825158925459732]
単分子画像からの3次元物体検出は、深さとスケールの射影的絡み合いにより不適切な問題である。テクスチャ化された3次元形状の再構成と剛体物体のポーズ推定のための新しい自己教師手法を提案する。本手法は,画像中の物体の3次元位置とメッシュを,異なるレンダリングと自己教師対象を用いて予測する。
論文参考訳（メタデータ） (2020-09-30T09:21:43Z)
3D Crowd Counting via Geometric Attention-guided Multi-View Fusion [50.520192402702015]
本稿では,3次元シーンレベルの密度マップと3次元特徴融合により,多視点群カウントタスクを解くことを提案する。 2D融合と比較すると、3D融合はz次元(高さ)に沿った人々のより多くの情報を抽出し、複数のビューにわたるスケールの変動に対処するのに役立つ。 3D密度マップは、和がカウントである2D密度マップの特性を保ちながら、群衆密度に関する3D情報も提供する。
論文参考訳（メタデータ） (2020-03-18T11:35:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。