Fugu-MT 論文翻訳(概要): MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction

論文の概要: MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction

arxiv url: http://arxiv.org/abs/2212.04655v1
Date: Fri, 9 Dec 2022 03:57:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-12 15:02:32.545808
Title: MIMO Is All You Need : A Strong Multi-In-Multi-Out Baseline for Video Prediction
Title（参考訳）: MIMOが必要なのは、ビデオ予測のための強力なマルチインマルチアウトベースライン
Authors: Shuliang Ning, Mengcheng Lan, Yanran Li, Chaofeng Chen, Qian Chen, Xunlai Chen, Xiaoguang Han, Shuguang Cui
Abstract要約: SISO(Single-In-Single-Out)アーキテクチャに基づいて,既存のビデオ予測手法がモデルを構築する。あるいは、将来のフレームを1ショットで出力するMulti-In-Multi-Out (MIMO)アーキテクチャは、自然に再帰を損なう。
参考スコア（独自算出の注目度）: 46.687394176382746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The mainstream of the existing approaches for video prediction builds up their models based on a Single-In-Single-Out (SISO) architecture, which takes the current frame as input to predict the next frame in a recursive manner. This way often leads to severe performance degradation when they try to extrapolate a longer period of future, thus limiting the practical use of the prediction model. Alternatively, a Multi-In-Multi-Out (MIMO) architecture that outputs all the future frames at one shot naturally breaks the recursive manner and therefore prevents error accumulation. However, only a few MIMO models for video prediction are proposed and they only achieve inferior performance due to the date. The real strength of the MIMO model in this area is not well noticed and is largely under-explored. Motivated by that, we conduct a comprehensive investigation in this paper to thoroughly exploit how far a simple MIMO architecture can go. Surprisingly, our empirical studies reveal that a simple MIMO model can outperform the state-of-the-art work with a large margin much more than expected, especially in dealing with longterm error accumulation. After exploring a number of ways and designs, we propose a new MIMO architecture based on extending the pure Transformer with local spatio-temporal blocks and a new multi-output decoder, namely MIMO-VP, to establish a new standard in video prediction. We evaluate our model in four highly competitive benchmarks (Moving MNIST, Human3.6M, Weather, KITTI). Extensive experiments show that our model wins 1st place on all the benchmarks with remarkable performance gains and surpasses the best SISO model in all aspects including efficiency, quantity, and quality. We believe our model can serve as a new baseline to facilitate the future research of video prediction tasks. The code will be released.
Abstract（参考訳）: ビデオ予測に対する既存のアプローチの主流は、現在のフレームを入力として、次のフレームを再帰的に予測するシングルインシングルアウト(SISO)アーキテクチャに基づくモデルを構築している。この方法では、長期的な未来を推定しようとすると、パフォーマンスが悪化することが多いため、予測モデルの実用性が制限される。あるいは、全ての将来のフレームを1ショットで出力するマルチインマルチアウト(mimo)アーキテクチャは、自然に再帰的な手法を破り、エラーの蓄積を防ぐ。しかし、映像予測のためのMIMOモデルはほとんど提案されておらず、日時により性能が劣るだけである。この領域におけるmimoモデルの真の強みはよく分かっておらず、ほとんど未調査である。そこで我々は,シンプルなMIMOアーキテクチャがどこまで進めるかを徹底的に活用するために,包括的な調査を行う。意外なことに、我々の経験的研究は、単純なMIMOモデルが、予想よりもはるかに大きなマージンを持つ最先端の作業、特に長期エラーの蓄積に優れた性能を発揮することを明らかにした。多数の方法と設計を探索した後,ローカルな時空間ブロックを持つ純粋なトランスフォーマーを拡張したMIMOアーキテクチャと,MIMO-VPと呼ばれる新しいマルチ出力デコーダを提案し,ビデオ予測における新しい標準を確立する。我々は、MNIST、Human3.6M、Weather、KITTIの4つの非常に競争性の高いベンチマークでモデルを評価した。広範な実験により,我々のモデルが優れた性能向上率ですべてのベンチマークで1位を獲得し,効率,量,品質といったあらゆる面で最高のsisoモデルを超えていることが示された。我々は,ビデオ予測タスクの今後の研究を促進するために,我々のモデルは新たなベースラインとして機能すると考えている。コードはリリースされます。

関連論文リスト

VIPER: Process-aware Evaluation for Generative Video Reasoning [64.86465792516658]
我々は、時間的、構造的、象徴的、空間的、物理的、計画的推論にまたがる16のタスクにまたがる包括的なベンチマークVIPERを紹介する。実験の結果,現状の映像モデルでは約20%のPOC@1.0しか達成できず,良好な結果が得られた。
論文参考訳（メタデータ） (2025-12-31T16:31:59Z)
Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文参考訳（メタデータ） (2025-11-24T07:00:21Z)
OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文参考訳（メタデータ） (2025-09-03T17:29:50Z)
Taming generative video models for zero-shot optical flow extraction [28.176290134216995]
将来のフレーム予測のためにのみ訓練された自己教師付きビデオモデルは、微調整なしで、出力フローを誘導することができる。対実世界モデル(CWM)パラダイムに触発されて、我々はこのアイデアを生成型ビデオモデルに拡張する。 KLトラシング(KL-tracing)は、局所摂動を第1フレームに注入し、モデルを第1ステップでロールアウトし、摂動分布と非退化予測分布の間のクルバック・リーブラー分岐を計算する、新しいテストタイムプロシージャである。
論文参考訳（メタデータ） (2025-07-11T23:59:38Z)
VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。新しい仮面融合はSAM2を双方向の点伝播に用いている。 The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文参考訳（メタデータ） (2025-06-05T17:59:29Z)
An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
MAUCell: An Adaptive Multi-Attention Framework for Video Frame Prediction [0.0]
本稿では,GAN(Generative Adrative Networks)とアテンション機構を組み合わせたマルチアテンションユニット(MAUCell)を導入する。新しい設計システムは、時間的連続性と空間的精度の平衡を維持し、信頼性の高い映像予測を提供する。
論文参考訳（メタデータ） (2025-01-28T14:52:10Z)
TemporalBench: Benchmarking Fine-grained Temporal Understanding for Multimodal Video Models [75.42002690128486]
TemporalBenchは、ビデオの微細な時間的理解を評価するための新しいベンチマークだ。ビデオクリップの時間的ダイナミクスを詳述した2Kの高品質な人間のアノテーションから派生した10KのビデオQ&Aペアで構成されている。 GPT-4oのような最先端のモデルは、TemporalBench上で38.5%の質問応答精度しか達成していない。
論文参考訳（メタデータ） (2024-10-14T17:59:58Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
SIAM: A Simple Alternating Mixer for Video Prediction [42.03590872477933]
以前のフレームから将来のフレームを予測するビデオは、自律運転や天気予報といった幅広い応用がある。我々は、これらの機能を統一エンコーダデコーダフレームワークで明示的にモデル化し、新しい簡易性(SIAM)を提案する。 SIAMは、空間的、時間的、時間的特徴をモデル化できる交互混合(Da)ブロックの設計にある。
論文参考訳（メタデータ） (2023-11-20T11:28:18Z)
From Single to Multiple: Leveraging Multi-level Prediction Spaces for Video Forecasting [37.322499502542556]
マルチプレディション空間で映像予測を行うための戦略を多数検討し,その結果を融合させて性能向上を図る。本モデルでは, 難解な歪みやぼやけたアーチファクトを著しく低減し, 長期ビデオ予測における精度を著しく向上することを示す。
論文参考訳（メタデータ） (2021-07-21T13:23:16Z)
FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。 FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文参考訳（メタデータ） (2021-06-24T17:20:21Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)
Greedy Hierarchical Variational Autoencoders for Large-Scale Video Prediction [79.23730812282093]
本稿では,階層型オートエンコーダの各レベルを厳格に訓練することにより,高忠実度映像予測を学習するGreedy Hierarchical Variational Autoencoders(GHVAEs)を紹介する。 GHVAEは4つのビデオデータセットで予測性能が17～55%向上し、実際のロボットタスクで35～40%向上し、モジュールを追加するだけでパフォーマンスを単調に改善することができる。
論文参考訳（メタデータ） (2021-03-06T18:58:56Z)
Temporal LiDAR Frame Prediction for Autonomous Driving [1.3706331473063877]
将来のLiDARフレームを予測するための新しいニューラルネットワークアーキテクチャのクラスを提案する。この応用の根底にある真実は、単にシーケンスの次のフレームであるので、自制的な方法でモデルを訓練することができる。
論文参考訳（メタデータ） (2020-12-17T06:19:59Z)
Future Frame Prediction of a Video Sequence [5.660207256468971]
将来の出来事を予測し、予測し、推論する能力は知性の本質である。将来の出来事を予測し、予測し、推論する能力は知性の本質である。
論文参考訳（メタデータ） (2020-08-31T15:31:02Z)
Tidying Deep Saliency Prediction Architectures [6.613005108411055]
本稿では,入力特徴,マルチレベル統合,読み出しアーキテクチャ,損失関数の4つの主成分を同定する。我々はSimpleNet と MDNSal という2つの新しいエンドツーエンドアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-03-10T19:34:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。