論文の概要: Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2010.09466v1
- Date: Mon, 19 Oct 2020 13:08:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 22:06:43.231661
- Title: Noisy-LSTM: Improving Temporal Awareness for Video Semantic Segmentation
- Title(参考訳): Noisy-LSTM:ビデオセマンティックセグメンテーションにおける時間認識の改善
- Authors: Bowen Wang, Liangzhi Li, Yuta Nakashima, Ryo Kawasaki, Hajime
Nagahara, Yasushi Yagi
- Abstract要約: 本稿では,エンドツーエンドで学習可能なNoisy-LSTMという新しいモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 29.00635219317848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic video segmentation is a key challenge for various applications. This
paper presents a new model named Noisy-LSTM, which is trainable in an
end-to-end manner, with convolutional LSTMs (ConvLSTMs) to leverage the
temporal coherency in video frames. We also present a simple yet effective
training strategy, which replaces a frame in video sequence with noises. This
strategy spoils the temporal coherency in video frames during training and thus
makes the temporal links in ConvLSTMs unreliable, which may consequently
improve feature extraction from video frames, as well as serve as a regularizer
to avoid overfitting, without requiring extra data annotation or computational
costs. Experimental results demonstrate that the proposed model can achieve
state-of-the-art performances in both the CityScapes and EndoVis2018 datasets.
- Abstract(参考訳): セマンティックビデオセグメンテーションは様々なアプリケーションにとって重要な課題である。
本稿では,ビデオフレームにおける時間的コヒーレンシを活用するために,畳み込みLSTM(ConvLSTM)を用いて,エンドツーエンドでトレーニング可能なNoisy-LSTMというモデルを提案する。
また,ビデオシーケンスのフレームをノイズに置き換える,シンプルで効果的なトレーニング戦略を提案する。
この戦略は、トレーニング中のビデオフレームの時間的コヒーレンシーを損なうため、ConvLSTMの時間的リンクを信頼できないものにし、これによりビデオフレームからの特徴抽出を改善し、余分なデータアノテーションや計算コストを必要とせず、オーバーフィットを避けるためのレギュレータとして機能する。
実験により,提案モデルがCityScapesとEndoVis2018データセットの両方で最先端のパフォーマンスを達成可能であることが示された。
関連論文リスト
- Event-guided Low-light Video Semantic Segmentation [6.938849566816958]
イベントカメラは、モーションダイナミクスをキャプチャし、時間依存情報をフィルタリングし、照明条件に対して堅牢である。
本稿では、イベントモダリティを利用した軽量なフレームワークであるEVSNetを提案し、統一照明不変表現の学習を指導する。
具体的には、動き抽出モジュールを利用して、事象のモーダルから短期・長期の時間的動きを抽出し、モーションフュージョンモジュールを用いて画像特徴と動き特徴を適応的に統合する。
論文 参考訳(メタデータ) (2024-11-01T14:54:34Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Free-Bloom: Zero-Shot Text-to-Video Generator with LLM Director and LDM
Animator [59.589919015669274]
本研究では,データ・コスト効率を考慮したゼロショットテキスト・ビデオ生成に焦点を当てた。
本稿では,大規模言語モデル (LLM) をディレクタとして活用し,セマンティック・コヒーレンス・プロンプト・シーケンスを生成する新しいフリーブルームパイプラインを提案する。
また,共同ノイズサンプリング,ステップ・アウェア・アテンション・シフト,デュアルパスなど,逆処理におけるLCMの適応に対する注釈修正も提案する。
論文 参考訳(メタデータ) (2023-09-25T19:42:16Z) - Transform-Equivariant Consistency Learning for Temporal Sentence
Grounding [66.10949751429781]
ビデオ毎により差別的な表現を学習するために,新しい同変一貫性規則学習フレームワークを導入する。
私たちのモチベーションは、クエリ誘導アクティビティの時間的境界を一貫して予測することにある。
特に,ビデオの完全性と滑らか性を高めるために,自己教師付き一貫性損失モジュールを考案した。
論文 参考訳(メタデータ) (2023-05-06T19:29:28Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Weakly-supervised Representation Learning for Video Alignment and
Analysis [16.80278496414627]
本稿では,新しい表現学習手法LRPropを紹介する。
提案アルゴリズムは、学習した特徴をよりよくチューニングするために、正規化されたSoftDTW損失も利用する。
我々の新しい表現学習パラダイムは、時間的アライメントタスクにおける技術の現状を一貫して上回ります。
論文 参考訳(メタデータ) (2023-02-08T14:01:01Z) - Exploiting long-term temporal dynamics for video captioning [40.15826846670479]
本稿では,時間的・空間的LSTM(TS-LSTM)という新しい手法を提案し,ビデオシーケンス内の空間的・時間的ダイナミクスを体系的に活用する。
2つの公開ビデオキャプションベンチマークで得られた実験結果から,我々のTS-LSTMは最先端の手法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-02-22T11:40:09Z) - Temporal Modulation Network for Controllable Space-Time Video
Super-Resolution [66.06549492893947]
宇宙時間のビデオ超解像度は、低解像度と低フレームレートのビデオの空間的および時間的解像度を高めることを目指しています。
変形性畳み込み法は、有望なSTVSR性能を達成したが、トレーニング段階で事前に定義された中間フレームのみを推測することができた。
本稿では,任意の中間フレームを高精度な高分解能再構成で補間する時間変調ネットワーク(tmnet)を提案する。
論文 参考訳(メタデータ) (2021-04-21T17:10:53Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。