論文の概要: ViM-Disparity: Bridging the Gap of Speed, Accuracy and Memory for Disparity Map Generation
- arxiv url: http://arxiv.org/abs/2412.16745v2
- Date: Fri, 10 Jan 2025 14:40:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:24:49.941867
- Title: ViM-Disparity: Bridging the Gap of Speed, Accuracy and Memory for Disparity Map Generation
- Title(参考訳): ViM-Disparity: 分散マップ生成のためのスピード、精度、メモリのギャップを埋める
- Authors: Maheswar Bora, Tushar Anand, Saurabh Atreya, Aritra Mukherjee, Abhijit Das,
- Abstract要約: 分散マップ生成(DMG)の計算オーバーヘッドが低いリアルタイムかつ高精度なモデルにおいて,既存のトレードオフを解消するためのVisual Mamba (ViM) アーキテクチャを提案する。
本稿では,DMGモデルの推論速度,計算オーバーヘッド,精度を共同評価できる性能指標を提案する。
- 参考スコア(独自算出の注目度): 1.1166701898428382
- License:
- Abstract: In this work we propose a Visual Mamba (ViM) based architecture, to dissolve the existing trade-off for real-time and accurate model with low computation overhead for disparity map generation (DMG). Moreover, we proposed a performance measure that can jointly evaluate the inference speed, computation overhead and the accurateness of a DMG model. The code implementation and corresponding models are available at: https://github.com/MBora/ViM-Disparity.
- Abstract(参考訳): 本研究では,分散マップ生成(DMG)の計算オーバーヘッドが低いリアルタイムかつ正確なモデルにおいて,既存のトレードオフを解消するために,Visual Mamba (ViM) ベースのアーキテクチャを提案する。
さらに,DMGモデルの推論速度,計算オーバーヘッド,精度を協調的に評価できる性能指標を提案した。
コードの実装と対応するモデルは、https://github.com/MBora/ViM-Disparity.comで入手できる。
関連論文リスト
- A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - Scalable Autoregressive Image Generation with Mamba [23.027439743155192]
本稿では,マンバアーキテクチャに基づく自己回帰(AR)画像生成モデルであるAiMを紹介する。
Mamba(マンバ)は、線形時間による長周期モデリングに特有な性能を特徴とする、新しい状態空間モデルである。
パラメータ数は128Mから1.3Bまで様々である。
論文 参考訳(メタデータ) (2024-08-22T09:27:49Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - LaMamba-Diff: Linear-Time High-Fidelity Diffusion Models Based on Local Attention and Mamba [54.85262314960038]
局所的意図的マンバブロックは、大域的コンテキストと局所的詳細の両方を線形複雑性でキャプチャする。
このモデルは, 256x256の解像度で, ImageNet上の様々なモデルスケールでDiTの性能を上回り, 優れたスケーラビリティを示す。
ImageNet 256x256 と 512x512 の最先端拡散モデルと比較すると,最大 62% GFLOP の削減など,我々の最大のモデルには顕著な利点がある。
論文 参考訳(メタデータ) (2024-08-05T16:39:39Z) - Progressive Query Refinement Framework for Bird's-Eye-View Semantic Segmentation from Surrounding Images [3.495246564946556]
本稿では, 自律運転のためのバードズ・アイビュー(BEV)セマンティックセマンティックセグメンテーションにMR(Multi-Resolution)の概念を導入する。
本稿では,画像間と特徴レベル間の相互作用を促進する視覚的特徴相互作用ネットワークを提案する。
大規模な実世界のデータセットを用いて、我々のモデルを評価する。
論文 参考訳(メタデータ) (2024-07-24T05:00:31Z) - Replication Study and Benchmarking of Real-Time Object Detection Models [0.0]
複数のグラフィクスカードにおける物体検出モデルの精度と推論速度を比較した。
本稿では,MMDetectionの機能に基づく統合トレーニングと評価パイプラインを提案し,モデルの比較を改良する。
結果は精度と速度の間に強いトレードオフを示し、アンカーフリーモデルが優勢である。
論文 参考訳(メタデータ) (2024-05-11T04:47:50Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Incremental Multimodal Surface Mapping via Self-Organizing Gaussian
Mixture Models [1.0878040851638]
本文では,環境を連続確率モデルとして表わすインクリメンタルなマルチモーダル表面マッピング手法について述べる。
この研究で使用される戦略は環境を表現するためにガウス混合モデル(GMM)を用いる。
このギャップを埋めるために,高速GMMサブマップ抽出のための空間ハッシュマップを導入する。
論文 参考訳(メタデータ) (2023-09-19T19:49:03Z) - FastSal: a Computationally Efficient Network for Visual Saliency
Prediction [7.742198347952173]
我々は、MobileNetV2が視覚的サリエンシモデルに優れたバックボーンを作り、複雑なデコーダを使わずに有効であることを示す。
また,DeepGaze IIのような計算コストの高いモデルからの知識伝達は,ラベルのないデータセットを擬似ラベリングすることで実現できることを示す。
論文 参考訳(メタデータ) (2020-08-25T16:32:33Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。