論文の概要: CapsFlow: Optical Flow Estimation with Capsule Networks
- arxiv url: http://arxiv.org/abs/2304.00306v1
- Date: Sat, 1 Apr 2023 12:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 18:43:38.154657
- Title: CapsFlow: Optical Flow Estimation with Capsule Networks
- Title(参考訳): CapsFlow: カプセルネットワークによる光フロー推定
- Authors: Rahul Chand, Rajat Arora, K Ram Prabhakar, R Venkatesh Babu
- Abstract要約: カプセルは分離実体とそれらのポーズを連続行列としてモデル化するために特化される。
本研究では,データセット内のカプセルによって検出されたオブジェクトのポーズに対する単純な線形操作が,フローをモデル化するのに十分であることを示す。
本研究では,FlowNetおよびPWC-Netモデルより優れた小型玩具について述べる。
- 参考スコア(独自算出の注目度): 36.473899305269015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework to use recently introduced Capsule Networks for
solving the problem of Optical Flow, one of the fundamental computer vision
tasks. Most of the existing state of the art deep architectures either uses a
correlation oepration to match features from them. While correlation layer is
sensitive to the choice of hyperparameters and does not put a prior on the
underlying structure of the object, spatio temporal features will be limited by
the network's receptive field. Also, we as humans look at moving objects as
whole, something which cannot be encoded by correlation or spatio temporal
features. Capsules, on the other hand, are specialized to model seperate
entities and their pose as a continuous matrix. Thus, we show that a simpler
linear operation over poses of the objects detected by the capsules in enough
to model flow. We show reslts on a small toy dataset where we outperform
FlowNetC and PWC-Net models.
- Abstract(参考訳): 本稿では,コンピュータビジョンの基本的なタスクである光フローの問題を解決するために,最近導入されたCapsule Networksを使用するフレームワークを提案する。
最先端アーキテクチャの既存の状態のほとんどは、それらの特徴にマッチする相関オープレーションを使用する。
相関層はハイパーパラメータの選択に敏感であり、対象の基盤構造に先行しないが、時空間的特徴はネットワークの受容野によって制限される。
また、人間は動く物体全体を見るので、相関関係や時間的特徴ではエンコードできない。
一方、カプセルは分離実体をモデル化し、そのポーズを連続行列としてモデル化する。
そこで本研究では, カプセルによって検出された物体のポーズを, より単純な線形操作でモデル化できることを示す。
本研究では,FlowNetC と PWC-Net モデルより優れる小さな玩具データセット上で再試行を行う。
関連論文リスト
- Non-Separable Multi-Dimensional Network Flows for Visual Computing [62.50191141358778]
本研究では,非分離型多次元ネットワークフローに対する新しい定式化法を提案する。
フローは次元ごとに定義されるので、最大化フローは自動的に最適な特徴次元を選択する。
概念実証として,マルチオブジェクト追跡問題にフォーマリズムを適用し,ノイズに対するロバスト性の観点からMOT16ベンチマークのスカラー定式化よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-15T13:21:44Z) - Capsules as viewpoint learners for human pose estimation [4.246061945756033]
カメラが大きな視点変化を受けると、ほとんどのニューラルネットワークがうまく一般化できないことを示す。
本稿では,高速な変分ベイズルーティングとマトリックスカプセルを用いた,エンドツーエンドのポジショニング等価なカプセルオートエンコーダを提案する。
複数のタスクやデータセットに対して、他の望ましい特性を維持しながら、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-13T09:01:46Z) - Affordance detection with Dynamic-Tree Capsule Networks [5.847547503155588]
視覚入力からの精度検出は、自律的なロボット操作の基本的なステップである。
疎3次元点雲のための動的木構造カプセルをベースとした第1次空隙検出ネットワークを提案する。
このアルゴリズムは、未確認物体の把握に直面する場合、現在の空き検出方法よりも優れている。
論文 参考訳(メタデータ) (2022-11-09T21:14:08Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - Correlation-Aware Deep Tracking [83.51092789908677]
本稿では,自己/横断的意図に着想を得た,新たなターゲット依存型特徴ネットワークを提案する。
我々のネットワークは機能ネットワークの複数の層にクロスイメージの特徴相関を深く埋め込んでいる。
我々のモデルは、豊富な未ペア画像に対して柔軟に事前訓練が可能であり、既存の手法よりも顕著に高速な収束をもたらす。
論文 参考訳(メタデータ) (2022-03-03T11:53:54Z) - Temporal and Object Quantification Networks [95.64650820186706]
複雑な関係時間事象を認識できる構造バイアスを持つニューロシンボリックネットワークを新たに提案する。
我々は、TOQ-Netsが、少量のデータから、トレーニング中に存在したものよりも多くのオブジェクトを含むシナリオ、入力シーケンスの時間的ワープまでを一般化できることを実証した。
論文 参考訳(メタデータ) (2021-06-10T16:18:21Z) - Deformable Capsules for Object Detection [3.702343116848637]
我々は,コンピュータビジョンにおいて重要な問題である物体検出に対処するために,新しいカプセルネットワーク,変形可能なカプセル(textitDeformCaps)を導入した。
提案手法は,本論文において,オブジェクト検出のためのカプセルネットワークを構築するために,効率よくスケールアップできることを実証する。
論文 参考訳(メタデータ) (2021-04-11T15:36:30Z) - Exploiting latent representation of sparse semantic layers for improved
short-term motion prediction with Capsule Networks [0.12183405753834559]
本稿では,HD(High-Definition)マップの小さな領域に対応するスパースなセマンティクス層の階層的表現を学習する文脈において,Capsule Networks(CapsNets)の利用を検討する。
CapsNetsに基づくアーキテクチャを使用することで、検出された画像内の特徴間の階層的関係を維持すると同時に、プール操作によってしばしば発生する空間データの損失を防ぐことができる。
本モデルでは,ネットワーク全体の規模を大幅に削減しつつ,予測に関する最近の研究よりも大幅な改善を実現していることを示す。
論文 参考訳(メタデータ) (2021-03-02T11:13:43Z) - A Point-Cloud Deep Learning Framework for Prediction of Fluid Flow
Fields on Irregular Geometries [62.28265459308354]
ネットワークは空間位置とCFD量のエンドツーエンドマッピングを学習する。
断面形状の異なるシリンダーを過ぎる非圧縮層状定常流を考察する。
ネットワークは従来のCFDの数百倍の速さで流れ場を予測する。
論文 参考訳(メタデータ) (2020-10-15T12:15:02Z) - Feature Flow: In-network Feature Flow Estimation for Video Object
Detection [56.80974623192569]
光の流れはコンピュータビジョンのタスクで広く使われ、ピクセルレベルのモーション情報を提供する。
一般的なアプローチは、ニューラルネットワークへの前向き光学フローと、タスクデータセット上のこのネットワークの微調整である。
ビデオオブジェクト検出のための textbfIn-network textbfFeature textbfFlow 推定モジュールを用いた新しいネットワーク (IFF-Net) を提案する。
論文 参考訳(メタデータ) (2020-09-21T07:55:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。