論文の概要: Beyond still images: Temporal features and input variance resilience
- arxiv url: http://arxiv.org/abs/2311.00800v2
- Date: Wed, 14 Feb 2024 15:41:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-15 19:24:15.658256
- Title: Beyond still images: Temporal features and input variance resilience
- Title(参考訳): 静止画像を超えて:時間的特徴と入力分散弾性
- Authors: Amir Hosein Fadaei, Mohammad-Reza A. Dehaqani
- Abstract要約: 静止画像の代わりにビデオでトレーニングし、時間的特徴を含むモデルは、入力メディア上の様々な変更に対してより弾力性を持つことを示す。
以上の結果から,静止画像の代わりに動画をトレーニングし,時間的特徴を含むモデルが,入力メディア上での様々な変更に対してより弾力性を持つことが明らかとなった。
- 参考スコア(独自算出の注目度): 0.9790236766474198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditionally, vision models have predominantly relied on spatial features
extracted from static images, deviating from the continuous stream of
spatiotemporal features processed by the brain in natural vision. While
numerous video-understanding models have emerged, incorporating videos into
image-understanding models with spatiotemporal features has been limited.
Drawing inspiration from natural vision, which exhibits remarkable resilience
to input changes, our research focuses on the development of a brain-inspired
model for vision understanding trained with videos. Our findings demonstrate
that models that train on videos instead of still images and include temporal
features become more resilient to various alternations on input media.
- Abstract(参考訳): 伝統的に、視覚モデルは主に静的画像から抽出された空間的特徴に依存しており、脳が自然な視覚で処理する時空間的特徴の連続の流れから逸脱している。
多くのビデオ理解モデルが登場したが、時空間的特徴を持つ画像理解モデルにビデオを取り込むことは制限されている。
我々の研究は、入力の変化に対して顕著なレジリエンスを示す自然視からインスピレーションを得て、ビデオで訓練された視覚理解のための脳誘発モデルの開発に焦点を当てている。
その結果,静止画ではなく映像で学習し,時間的特徴を含むモデルが,入力メディアの様々な変化に対してより弾力的になることがわかった。
関連論文リスト
- Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge [49.60640053101214]
本稿では,物理現象の知識が潜むビデオ拡散モデルを教える新しい手法を提案する。
CLIPビジョンと言語エンコーダの空間的関係に基づいて擬似言語プロンプトを生成する。
物理現象の数値シミュレーションと実世界観測の両方を通して,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2024-11-18T07:26:09Z) - Aligning Neuronal Coding of Dynamic Visual Scenes with Foundation Vision Models [2.790870674964473]
自己教師型視覚変換器(ViT)を用いた時空間畳み込みニューラルネットワークVi-STを提案する。
提案したVi-STは,脳内動的視覚シーンのニューロンコーディングのための新しいモデリングフレームワークである。
論文 参考訳(メタデータ) (2024-07-15T14:06:13Z) - Diffusion Priors for Dynamic View Synthesis from Monocular Videos [59.42406064983643]
ダイナミックノベルビュー合成は、ビデオ内の視覚的コンテンツの時間的進化を捉えることを目的としている。
まず、ビデオフレーム上に予め訓練されたRGB-D拡散モデルをカスタマイズ手法を用いて微調整する。
動的および静的なニューラルレイディアンス場を含む4次元表現に、微調整されたモデルから知識を蒸留する。
論文 参考訳(メタデータ) (2024-01-10T23:26:41Z) - Cinematic Mindscapes: High-quality Video Reconstruction from Brain
Activity [0.0]
我々は,Mind-Videoを用いて,任意のフレームレートで高品質な映像を再構成可能であることを示す。
また,我々のモデルは,確立された生理的過程を反映し,生物学的に妥当かつ解釈可能であることも示している。
論文 参考訳(メタデータ) (2023-05-19T13:44:25Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Human Eyes Inspired Recurrent Neural Networks are More Robust Against Adversarial Noises [7.689542442882423]
我々は人間の脳にインスパイアされたデュアルストリーム視覚モデルを設計した。
このモデルは網膜のような入力層を特徴とし、次の焦点(固定点)を決定する2つのストリームと、固定点を取り巻く視覚を解釈する2つのストリームを含む。
このモデルを,物体認識,視線行動,対向強靭性の観点から評価した。
論文 参考訳(メタデータ) (2022-06-15T03:44:42Z) - Causal Navigation by Continuous-time Neural Networks [108.84958284162857]
本研究では,連続時間ニューラルネットワークを用いた因果表現学習のための理論的,実験的枠組みを提案する。
本手法は,ドローンの視覚制御学習の文脈において,一連の複雑なタスクにおいて評価する。
論文 参考訳(メタデータ) (2021-06-15T17:45:32Z) - Learning Temporal Dynamics from Cycles in Narrated Video [85.89096034281694]
時が経つにつれて世界がどのように変化するかをモデル化する学習問題に対する自己監督型ソリューションを提案します。
私たちのモデルは、前方および後方の時間を予測するためにモダリティに依存しない関数を学習します。
将来的な動作の予測や画像の時間的順序付けなど,様々なタスクに対して,学習されたダイナミクスモデルを適用する。
論文 参考訳(メタデータ) (2021-01-07T02:41:32Z) - Neural Scene Flow Fields for Space-Time View Synthesis of Dynamic Scenes [70.76742458931935]
本稿では,動的シーンを外観・幾何学・3次元シーン動作の時間変化連続関数としてモデル化する新しい表現を提案する。
私たちの表現は、観測された入力ビューに適合するようにニューラルネットワークを介して最適化されます。
我々の表現は、細い構造、ビュー依存効果、自然な動きの度合いなどの複雑な動的シーンに利用できることを示す。
論文 参考訳(メタデータ) (2020-11-26T01:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。