論文の概要: Beyond Still Images: Robust Multi-Stream Spatiotemporal Networks
- arxiv url: http://arxiv.org/abs/2311.00800v1
- Date: Wed, 1 Nov 2023 19:34:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:55:15.214921
- Title: Beyond Still Images: Robust Multi-Stream Spatiotemporal Networks
- Title(参考訳): 静止画を超えて:堅牢なマルチストリーム時空間ネットワーク
- Authors: AmirHosein Fadaei, Mohammad-Reza A. Dehaqani
- Abstract要約: 我々は、時間的特徴を含むことで変化に対処する可能性を探るために、単純なマルチストリームモデルを用いる。
我々の第一の目的は、ビデオ学習モデルを導入し、多様な画像やビデオ入力に対するロバスト性を評価することである。
その結果、トレーニング中のビデオと時間ストリームを含むと、画像理解タスクにおける精度の低下とmAPがそれぞれ1.36%、動画理解タスクが3.14%減少することがわかった。
- 参考スコア(独自算出の注目度): 0.9790236766474198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A defining characteristic of natural vision is its ability to withstand a
variety of input alterations, resulting in the creation of an invariant
representation of the surroundings. While convolutional neural networks exhibit
resilience to certain forms of spatial input variation, modifications in the
spatial and temporal aspects can significantly affect the representations of
video content in deep neural networks. Inspired by the resilience of natural
vision to input variations, we employ a simple multi-stream model to explore
its potential to address spatiotemporal changes by including temporal features.
Our primary goal is to introduce a video-trained model and evaluate its
robustness to diverse image and video inputs, with a particular focus on
exploring the role of temporal features in invariant recognition. Results show
that including videos and the temporal stream during training mitigates the
decline in accuracy and mAP in image and video understanding tasks by 1.36% and
3.14%, respectively.
- Abstract(参考訳): 自然視の特徴は、様々な入力変化に耐える能力であり、その結果周囲の不変表現が生成されることである。
畳み込みニューラルネットワークはある種の空間的入力変動に対してレジリエンスを示すが、空間的および時間的側面の変化はディープニューラルネットワークにおけるビデオ内容の表現に大きく影響する。
入力変動に対する自然視のレジリエンスに着想を得て、時間的特徴を含む時空間変化に対処する可能性を探るために、簡単なマルチストリームモデルを用いた。
第一の目的は,映像学習モデルを導入し,その頑健性を評価することであり,特に不変認識における時間的特徴について検討することである。
その結果、訓練中の映像と時間の流れは、それぞれ1.36%と3.14%の精度とマップの低下を緩和していることがわかった。
関連論文リスト
- From Image to Video: An Empirical Study of Diffusion Representations [35.46566116011867]
拡散モデルは生成モデルに革命をもたらし、画像合成やビデオ合成において前例のないリアリズムを可能にした。
この研究は、視覚的理解のための映像と画像の拡散目標の直接比較として初めて行われ、表現学習における時間情報の役割についての洞察を提供する。
論文 参考訳(メタデータ) (2025-02-10T19:53:46Z) - Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge [49.60640053101214]
本稿では,物理現象の知識が潜むビデオ拡散モデルを教える新しい手法を提案する。
CLIPビジョンと言語エンコーダの空間的関係に基づいて擬似言語プロンプトを生成する。
物理現象の数値シミュレーションと実世界観測の両方を通して,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2024-11-18T07:26:09Z) - Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models [2.790870674964473]
自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。
提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-07-15T14:06:13Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。