論文の概要: A Compacted Structure for Cross-domain learning on Monocular Depth and
Flow Estimation
- arxiv url: http://arxiv.org/abs/2208.11993v1
- Date: Thu, 25 Aug 2022 10:46:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-26 13:30:01.468244
- Title: A Compacted Structure for Cross-domain learning on Monocular Depth and
Flow Estimation
- Title(参考訳): 単眼深度と流れ推定によるクロスドメイン学習のためのコンパクト構造
- Authors: Yu Chen, Xu Cao, Xiaoyi Lin, Baoru Huang, Xiao-Yun Zhou, Jian-Qing
Zheng, Guang-Zhong Yang
- Abstract要約: 本稿では,フロー・トゥ・深さ(F2D),深さ・フロー(D2F),指数移動平均(EMA)による相互支援を実現するマルチタスク方式を提案する。
二重ヘッド機構は, 剛性および非剛性運動の光学的流れを分割・コンカレントな方法で予測するために用いられる。
KITTIデータセットの実験により、我々のマルチタスクスキームは他のマルチタスクスキームよりも優れていることが示された。
- 参考スコア(独自算出の注目度): 31.671655267992683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate motion and depth recovery is important for many robot vision tasks
including autonomous driving. Most previous studies have achieved cooperative
multi-task interaction via either pre-defined loss functions or cross-domain
prediction. This paper presents a multi-task scheme that achieves mutual
assistance by means of our Flow to Depth (F2D), Depth to Flow (D2F), and
Exponential Moving Average (EMA). F2D and D2F mechanisms enable multi-scale
information integration between optical flow and depth domain based on
differentiable shallow nets. A dual-head mechanism is used to predict optical
flow for rigid and non-rigid motion based on a divide-and-conquer manner, which
significantly improves the optical flow estimation performance. Furthermore, to
make the prediction more robust and stable, EMA is used for our multi-task
training. Experimental results on KITTI datasets show that our multi-task
scheme outperforms other multi-task schemes and provide marked improvements on
the prediction results.
- Abstract(参考訳): 正確な動きと深度の回復は、自動運転を含む多くのロボットビジョンタスクにとって重要である。
これまでの研究のほとんどは、事前定義された損失関数またはクロスドメイン予測によって協調的なマルチタスクインタラクションを達成している。
本稿では,F2D(Flow to Depth),D2F(Depth to Flow),EMA(Exponential moving Average)による相互支援を実現するマルチタスク方式を提案する。
F2DおよびD2F機構は、異なる浅層ネットに基づく光フローと深度領域のマルチスケール情報統合を可能にする。
二重ヘッド機構は、剛性および非剛性運動の光学的流れを分割・コンカレントな方法で予測し、光学的フロー推定性能を著しく向上させる。
さらに、予測をより堅牢で安定したものにするため、EMAはマルチタスクトレーニングに使用しています。
KITTIデータセットの実験結果から,我々のマルチタスクスキームは他のマルチタスクスキームよりも優れ,予測結果に顕著な改善が得られた。
関連論文リスト
- Exploring End-to-end Differentiable Neural Charged Particle Tracking -- A Loss Landscape Perspective [0.0]
粒子追跡のためのE2E差分型決定型学習手法を提案する。
離散的な代入操作の微分可能なバリエーションは、効率的なネットワーク最適化を可能にすることを示す。
E2Eの微分性は、勾配情報の一般利用に加えて、予測不安定性を緩和するロバスト粒子追跡のための重要なツールである、と我々は主張する。
論文 参考訳(メタデータ) (2024-07-18T11:42:58Z) - StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction [22.29257945966914]
我々は3次元多目的追跡・軌道予測(StreamMOTP)のためのストリーミング統合フレームワークを提案する。
ストリーミング方式でモデルを構築し、メモリバンクを利用して、追跡対象の長期潜伏機能をより効果的に保存し、活用する。
また,予測トラジェクタの品質と一貫性を2ストリーム予測器で改善する。
論文 参考訳(メタデータ) (2024-06-28T11:35:35Z) - Efficient Multitask Dense Predictor via Binarization [19.5100813204537]
資源集約型マルチタスク密度予測器を圧縮するために,ネットワークバイナライゼーションを導入する。
両立マルチタスクDense Predictor, Bi-MTDP, およびいくつかの種類のBi-MTDPを提案する。
Bi-MTDPの1つの変種は、フル精度(FP)マルチタスク密度予測SoTA、ARTC(CNNベース)、InvPT(ViTベース)より優れている
論文 参考訳(メタデータ) (2024-05-23T03:19:23Z) - AMFD: Distillation via Adaptive Multimodal Fusion for Multispectral Pedestrian Detection [23.91870504363899]
マルチスペクトル検出におけるダブルストリームネットワークは、マルチモーダルデータに2つの異なる特徴抽出枝を用いる。
これにより、組み込みデバイスにおける多スペクトル歩行者検出が自律システムに広く採用されるのを妨げている。
本稿では,教師ネットワークの本来のモーダル特徴を完全に活用できる適応型モーダル核融合蒸留(AMFD)フレームワークについて紹介する。
論文 参考訳(メタデータ) (2024-05-21T17:17:17Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - FLODCAST: Flow and Depth Forecasting via Multimodal Recurrent
Architectures [31.879514593973195]
本研究では,両モードを同時に予測するフローおよび深さ予測モデルを提案する。
提案したモデルをトレーニングし、将来いくつかのタイムステップの予測を行う。
セグメンテーション予測の下流タスクの利点を報告し、フローベースのマスクウォーピングフレームワークに予測を注入する。
論文 参考訳(メタデータ) (2023-10-31T16:30:16Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - PSNet: Parallel Symmetric Network for Video Salient Object Detection [85.94443548452729]
我々は,PSNet という名前のアップ・ダウン・パラレル対称性を持つ VSOD ネットワークを提案する。
2つの並列ブランチが、ビデオの完全サリエンシ復号化を実現するために設定されている。
論文 参考訳(メタデータ) (2022-10-12T04:11:48Z) - Semantics-Depth-Symbiosis: Deeply Coupled Semi-Supervised Learning of
Semantics and Depth [83.94528876742096]
我々は,意味的セグメンテーションと深さ推定という2つの密なタスクのMTL問題に取り組み,クロスチャネル注意モジュール(CCAM)と呼ばれる新しいアテンションモジュールを提案する。
次に,AffineMixと呼ばれる予測深度を用いた意味分節タスクのための新しいデータ拡張と,ColorAugと呼ばれる予測セマンティクスを用いた単純な深度増分を定式化する。
最後に,提案手法の性能向上をCityscapesデータセットで検証し,深度と意味に基づく半教師付きジョイントモデルにおける最先端結果の実現を支援する。
論文 参考訳(メタデータ) (2022-06-21T17:40:55Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。