論文の概要: 3D Motion Perception of Binocular Vision Target with PID-CNN
- arxiv url: http://arxiv.org/abs/2511.20332v2
- Date: Mon, 01 Dec 2025 07:41:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 15:37:38.329584
- Title: 3D Motion Perception of Binocular Vision Target with PID-CNN
- Title(参考訳): PID-CNNを用いた両眼視標の3次元運動知覚
- Authors: Jiazhao Shi, Pan Pan, Haotian Shi,
- Abstract要約: 本稿では,3次元座標誤差,速度,加速度を知覚するネットワークを訓練し,基本的な知覚能力を有する。
17の層と413万のパラメータを持つ比較的小さな畳み込みニューラルネットワークを設計した。
- 参考スコア(独自算出の注目度): 10.329773750968926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This article trained a network for perceiving three-dimensional motion information of binocular vision target, which can provide real-time three-dimensional coordinate, velocity, and acceleration, and has a basic spatiotemporal perception capability. Understood the ability of neural networks to fit nonlinear problems from the perspective of PID. Considered a single-layer neural network as using a second-order difference equation and a nonlinearity to describe a local problem. Multilayer networks gradually transform the raw representation to the desired representation through multiple such combinations. Analysed some reference principles for designing neural networks. Designed a relatively small PID convolutional neural network, with a total of 17 layers and 413 thousand parameters. Implemented a simple but practical feature reuse method by concatenation and pooling. The network was trained and tested using the simulated randomly moving ball datasets, and the experimental results showed that the prediction accuracy was close to the upper limit that the input image resolution can represent. Analysed the experimental results and errors, as well as the existing shortcomings and possible directions for improvement. Finally, discussed the advantages of high-dimensional convolution in improving computational efficiency and feature space utilization. As well as the potential advantages of using PID information to implement memory and attention mechanisms.
- Abstract(参考訳): 本稿では,両眼視対象の3次元運動情報を知覚するネットワークを訓練し,リアルタイムな3次元座標,速度,加速度を提供し,時空間知覚の基本的な能力を有する。
PIDの観点から、非線形問題に適合するニューラルネットワークの能力について考察した。
2階差分方程式と非線形性を用いて局所問題を記述した単層ニューラルネットワークを考える。
多層ネットワークは、これらの組み合わせを通じて、徐々に生の表現を所望の表現に変換する。
ニューラルネットワークを設計するための参照原則を分析した。
比較的小さなPID畳み込みニューラルネットワークを設計し、合計17層と413万のパラメータを持つ。
結合とプールによるシンプルだが実用的な機能再利用手法を実装した。
ネットワークをランダムに移動した球体データセットを用いてトレーニングし,実験結果から,入力画像の解像度が表現できる上限に近い予測精度が得られた。
実験結果とエラー、および既存の欠点と改善の可能な方向性を分析した。
最後に,高次元畳み込みによる計算効率の向上と特徴空間利用の利点について論じる。
メモリとアテンションメカニズムを実装するためにPID情報を使用することの潜在的な利点と同様に。
関連論文リスト
- Exploring Superposition and Interference in State-of-the-Art Low-Parameter Vision Models [0.0]
ニューロンが同時に複数の特徴を符号化する重畳現象である特徴写像の干渉に対処する。
本研究は,超低スケールネットワーク(1.5Mパラメータ下で)のスケーリングと精度を高めるために,干渉制限が有効であることを示唆している。
実験から得られた機械的知見に基づいて,ImageNetデータセット上での堅牢なスケーリング精度を実証した概念実証アーキテクチャであるNoDepth Bottleneckを提案する。
論文 参考訳(メタデータ) (2025-07-21T16:57:25Z) - 3DPyranet Features Fusion for Spatio-temporal Feature Learning [2.327279581393927]
3DPyraNetと呼ばれる3次元ピラミッド状神経ピラミッドと3DPyraNet-Fと呼ばれる分別時間的特徴学習のための識別的アプローチを提案する。
3DPyraNet-Fは学習したネットワークの最も高い層の特徴マップを抽出し、それらを単一のベクトルに融合し、線形SVMへの入力として提供する。
3DPyraNetを実環境、特にカメラ誘起運動の有無で報告した。
論文 参考訳(メタデータ) (2025-04-26T17:32:37Z) - PiLocNet: Physics-informed neural network on 3D localization with rotating point spread function [3.029152208453665]
これまでに導入したローカライゼーションニューラルネットワークであるLocNetの新たな拡張を提案する。
改良されたネットワークは、我々がPiLocNetと呼ぶ物理インフォームドニューラルネットワーク(PINN)である。
本論文は3次元ソース位置のエンコードにシングルローブ回転型PSFを用いることに焦点を当てるが,他のPSFや画像問題にも広く適用できると期待している。
論文 参考訳(メタデータ) (2024-10-17T07:49:23Z) - N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。
N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。
本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文 参考訳(メタデータ) (2024-05-25T13:54:34Z) - SeMLaPS: Real-time Semantic Mapping with Latent Prior Networks and
Quasi-Planar Segmentation [53.83313235792596]
本稿では,RGB-Dシーケンスからのリアルタイム意味マッピングのための新しい手法を提案する。
2DニューラルネットワークとSLAMシステムに基づく3Dネットワークと3D占有マッピングを組み合わせる。
本システムは,2D-3Dネットワークベースシステムにおいて,最先端のセマンティックマッピング品質を実現する。
論文 参考訳(メタデータ) (2023-06-28T22:36:44Z) - NAF: Neural Attenuation Fields for Sparse-View CBCT Reconstruction [79.13750275141139]
本稿では,スパースビューCBCT再構成のための新規かつ高速な自己教師型ソリューションを提案する。
所望の減衰係数は、3次元空間座標の連続関数として表現され、完全に接続されたディープニューラルネットワークによってパラメータ化される。
ハッシュ符号化を含む学習ベースのエンコーダが採用され、ネットワークが高周波の詳細をキャプチャするのに役立つ。
論文 参考訳(メタデータ) (2022-09-29T04:06:00Z) - FuNNscope: Visual microscope for interactively exploring the loss
landscape of fully connected neural networks [77.34726150561087]
ニューラルネットワークの高次元景観特性を探索する方法を示す。
我々は、小さなニューラルネットワークの観測結果をより複雑なシステムに一般化する。
インタラクティブダッシュボードは、いくつかのアプリケーションネットワークを開放する。
論文 参考訳(メタデータ) (2022-04-09T16:41:53Z) - Model-inspired Deep Learning for Light-Field Microscopy with Application
to Neuron Localization [27.247818386065894]
光フィールド顕微鏡画像を用いた高速かつ堅牢なソースの3Dローカリゼーションを実現するモデルに基づくディープラーニング手法を提案する。
これは畳み込みスパース符号化問題を効率的に解くディープネットワークを開発することによって実現される。
光場からのほ乳類ニューロンの局在化実験により,提案手法が性能,解釈性,効率の向上をもたらすことが示された。
論文 参考訳(メタデータ) (2021-03-10T16:24:47Z) - Reinforced Axial Refinement Network for Monocular 3D Object Detection [160.34246529816085]
モノクロ3次元物体検出は、2次元入力画像から物体の位置と特性を抽出することを目的としている。
従来のアプローチでは、空間から3D境界ボックスをサンプリングし、対象オブジェクトと各オブジェクトの関係を推定するが、有効サンプルの確率は3D空間で比較的小さい。
我々は,まず最初の予測から始めて,各ステップで1つの3dパラメータだけを変えて,基礎的真理に向けて徐々に洗練することを提案する。
これは、いくつかのステップの後に報酬を得るポリシーを設計する必要があるため、最適化するために強化学習を採用します。
論文 参考訳(メタデータ) (2020-08-31T17:10:48Z) - Cylindrical Convolutional Networks for Joint Object Detection and
Viewpoint Estimation [76.21696417873311]
3次元空間で定義された畳み込みカーネルの円筒形表現を利用する学習可能なモジュールである円筒型畳み込みネットワーク(CCN)を導入する。
CCNはビュー固有の畳み込みカーネルを通してビュー固有の特徴を抽出し、各視点におけるオブジェクトカテゴリスコアを予測する。
本実験は,円柱状畳み込みネットワークが関節物体の検出と視点推定に与える影響を実証する。
論文 参考訳(メタデータ) (2020-03-25T10:24:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。