Fugu-MT 論文翻訳(概要): Borrowing from yourself: Faster future video segmentation with partial channel update

論文の概要: Borrowing from yourself: Faster future video segmentation with partial channel update

arxiv url: http://arxiv.org/abs/2202.05748v1
Date: Fri, 11 Feb 2022 16:37:53 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-14 19:20:02.921502
Title: Borrowing from yourself: Faster future video segmentation with partial channel update
Title（参考訳）: 自己からの引用: 部分的なチャンネル更新によるより高速なビデオセグメンテーション
Authors: Evann Courdier and Fran\c{c}ois Fleuret
Abstract要約: 本稿では,時間依存型チャネルマスキングを用いた畳み込み層を用いて,将来的な映像セグメンテーション予測の課題に取り組むことを提案する。このテクニックは、各タイミングでフィーチャーマップの選ばれたサブセットだけを更新し、同時に計算とレイテンシを削減します。この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic segmentation is a well-addressed topic in the computer vision literature, but the design of fast and accurate video processing networks remains challenging. In addition, to run on embedded hardware, computer vision models often have to make compromises on accuracy to run at the required speed, so that a latency/accuracy trade-off is usually at the heart of these real-time systems' design. For the specific case of videos, models have the additional possibility to make use of computations made for previous frames to mitigate the accuracy loss while being real-time. In this work, we propose to tackle the task of fast future video segmentation prediction through the use of convolutional layers with time-dependent channel masking. This technique only updates a chosen subset of the feature maps at each time-step, bringing simultaneously less computation and latency, and allowing the network to leverage previously computed features. We apply this technique to several fast architectures and experimentally confirm its benefits for the future prediction subtask.
Abstract（参考訳）: セマンティックセグメンテーション(Semantic segmentation)はコンピュータビジョンの文献でよく取り上げられるトピックであるが、高速で正確なビデオ処理ネットワークの設計は依然として困難である。加えて、組み込みハードウェア上で動作するためには、コンピュータビジョンモデルが要求される速度で実行するためには、しばしば精度の妥協を行う必要があるため、遅延/精度のトレードオフは通常、これらのリアルタイムシステムの設計の中心にある。ビデオの特定の場合、モデルは、リアルタイムである間精度の損失を軽減するために、以前のフレームで計算された計算を利用する追加の可能性を秘めている。本研究では,時間依存型チャネルマスキングを伴う畳み込み層を用いることにより,今後の映像分割予測の高速化に取り組むことを提案する。このテクニックは、各タイムステップで選択された機能マップのサブセットのみを更新することで、計算とレイテンシを削減し、ネットワークが以前に計算された機能を活用することができる。この手法をいくつかの高速アーキテクチャに適用し、将来の予測サブタスクに対する利点を実験的に検証する。

関連論文リスト

Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文参考訳（メタデータ） (2025-03-26T01:47:42Z)
SparseTem: Boosting the Efficiency of CNN-Based Video Encoders by Exploiting Temporal Continuity [15.872209884833977]
本稿では,メモリオーバーヘッドを削減するためのメモリ効率スケジューリング手法と,精度の劣化を最小限に抑えるためのオンライン調整機構を提案する。 SparseTemは効率の良いDetでは1.79x、CRNNでは4.72xの高速化を実現している。
論文参考訳（メタデータ） (2024-10-28T07:13:25Z)
Spatiotemporal Attention-based Semantic Compression for Real-time Video Recognition [117.98023585449808]
本稿では,各フレームにおけるフレームと画素の重要性を評価するために,時間的注意に基づくオートエンコーダ(STAE)アーキテクチャを提案する。我々は3D-2D CNNを組み合わせた軽量デコーダを開発し、欠落した情報を再構成する。実験の結果,VT_STAEはビデオデータセットH51を,5%の精度で104倍圧縮できることがわかった。
論文参考訳（メタデータ） (2023-05-22T07:47:27Z)
ReBotNet: Fast Real-time Video Enhancement [59.08038313427057]
ほとんどの復元ネットワークは遅く、高い計算ボトルネックがあり、リアルタイムビデオ拡張には使用できない。本研究では,ライブビデオ通話やビデオストリームなどの実用的なユースケースをリアルタイムに拡張するための,効率的かつ高速なフレームワークを設計する。提案手法を評価するために,実世界のビデオ通話とストリーミングのシナリオを示す2つの新しいデータセットをエミュレートし,ReBotNetがより少ない計算,メモリ要求の低減,より高速な推論時間で既存手法より優れていることを示す。
論文参考訳（メタデータ） (2023-03-23T17:58:05Z)
Task-Oriented Communication for Edge Video Analytics [11.03999024164301]
本稿では,エッジビデオ分析のためのタスク指向通信フレームワークを提案する。複数のデバイスが視覚センサデータを収集し、その情報機能をエッジサーバに送信して処理する。提案手法は,映像データのタスク関連情報を効果的に符号化し,既存の手法よりも高いレート性能のトレードオフを実現する。
論文参考訳（メタデータ） (2022-11-25T12:09:12Z)
Distortion-Aware Network Pruning and Feature Reuse for Real-time Video Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文参考訳（メタデータ） (2022-06-20T07:20:02Z)
Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文参考訳（メタデータ） (2021-06-07T11:37:03Z)
Real-Time Segmentation Networks should be Latency Aware [0.0]
「平均対合(mIoU)における平均対合(mIoU)の性能指標は、これらのネットワークがリアルタイムに運用する際の真の性能を推定するために必要な情報を完全には捉えていない。」ネットワークが処理を完了したときの将来の入力フレームにマッチする将来の出力セグメンテーションマップを予測することを提案する。
論文参考訳（メタデータ） (2020-04-06T11:41:31Z)
Temporally Distributed Networks for Fast Video Semantic Segmentation [64.5330491940425]
TDNetは、高速かつ正確なビデオセマンティックセグメンテーションのために設計された時間分散ネットワークである。我々は,深層CNNの特定の高層層から抽出した特徴を,より浅いサブネットワークから抽出した特徴の合成により近似することができることを観察した。 Cityscapes, CamVid, NYUD-v2 の実験により,本手法が高速かつ低レイテンシで最先端の精度を実現することを示す。
論文参考訳（メタデータ） (2020-04-03T22:43:32Z)
Efficient Video Semantic Segmentation with Labels Propagation and Refinement [138.55845680523908]
本稿では,ハイブリッドGPU/CPUを用いた高精細ビデオのリアルタイムセマンティックセマンティックセマンティック化の問題に取り組む。 i) CPU上では、非常に高速な光フロー法であり、ビデオの時間的側面を利用して、あるフレームから次のフレームへ意味情報を伝達するために使用される。高解像度フレーム(2048 x 1024)を持つ一般的なCityscapesデータセットでは、単一のGPUとCPU上で80から1000Hzの動作ポイントが提案されている。
論文参考訳（メタデータ） (2019-12-26T11:45:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。