論文の概要: VONet: Unsupervised Video Object Learning With Parallel U-Net Attention
and Object-wise Sequential VAE
- arxiv url: http://arxiv.org/abs/2401.11110v1
- Date: Sat, 20 Jan 2024 04:13:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 17:52:44.138735
- Title: VONet: Unsupervised Video Object Learning With Parallel U-Net Attention
and Object-wise Sequential VAE
- Title(参考訳): VONet: 並列U-Netアテンションとオブジェクト指向シーケンスVAEによる教師なしビデオオブジェクト学習
- Authors: Haonan Yu and Wei Xu
- Abstract要約: 教師なしのビデオオブジェクト学習は、ビデオシーンを奥行き、光学的流れ、セグメンテーションの監督なしに、構造的オブジェクト表現に分解しようとする。
私たちはMONetにインスパイアされた革新的なアプローチVONetを紹介します。
- 参考スコア(独自算出の注目度): 19.39606551606549
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unsupervised video object learning seeks to decompose video scenes into
structural object representations without any supervision from depth, optical
flow, or segmentation. We present VONet, an innovative approach that is
inspired by MONet. While utilizing a U-Net architecture, VONet employs an
efficient and effective parallel attention inference process, generating
attention masks for all slots simultaneously. Additionally, to enhance the
temporal consistency of each mask across consecutive video frames, VONet
develops an object-wise sequential VAE framework. The integration of these
innovative encoder-side techniques, in conjunction with an expressive
transformer-based decoder, establishes VONet as the leading unsupervised method
for object learning across five MOVI datasets, encompassing videos of diverse
complexities. Code is available at https://github.com/hnyu/vonet.
- Abstract(参考訳): 教師なしのビデオオブジェクト学習は、ビデオシーンを奥行き、光学的流れ、セグメンテーションの監督なしに、構造的オブジェクト表現に分解しようとする。
私たちはMONetにインスパイアされた革新的なアプローチVONetを紹介します。
u-netアーキテクチャを利用する一方で、vonetは効率的かつ効果的な並列注意推論プロセスを採用し、すべてのスロットに注意マスクを同時に生成する。
さらに、連続するビデオフレーム間のマスクの時間的一貫性を高めるために、VONetはオブジェクト指向シーケンシャルなVAEフレームワークを開発する。
これらの革新的なエンコーダ側技術の統合は、表現力のあるトランスフォーマーベースのデコーダとともに、VONetを5つのMOVIデータセットにわたるオブジェクト学習の指導を受けていない主要な方法として確立し、多様な複雑さのビデオを含んでいる。
コードはhttps://github.com/hnyu/vonetで入手できる。
関連論文リスト
- AU-vMAE: Knowledge-Guide Action Units Detection via Video Masked Autoencoder [38.04963261966939]
顔行動単位(FAU)検出のためのビデオレベルの事前学習方式を提案する。
我々の設計の中心は、ビデオマインドオートエンコーダに基づく事前訓練されたビデオ特徴抽出器である。
提案手法は,BP4DおよびdisFA FAUsデータセットで使用されている既存の最先端手法と比較して,性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-07-16T08:07:47Z) - VISA: Reasoning Video Object Segmentation via Large Language Models [64.33167989521357]
我々は新しいタスク、Reasoning Video Object(ReasonVOS)を導入する。
このタスクは、複雑な推論能力を必要とする暗黙のテキストクエリに応答して、セグメンテーションマスクのシーケンスを生成することを目的としている。
本稿では、ReasonVOSに取り組むためにVISA(ビデオベース大規模言語命令付きアシスタント)を導入する。
論文 参考訳(メタデータ) (2024-07-16T02:29:29Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - Betrayed by Attention: A Simple yet Effective Approach for Self-supervised Video Object Segmentation [76.68301884987348]
自己教師型ビデオオブジェクトセグメンテーション(VOS)のための簡易かつ効果的なアプローチを提案する。
我々の重要な洞察は、DINO-pretrained Transformerに存在する構造的依存関係を利用して、ビデオ内の堅牢な時間分割対応を確立することである。
提案手法は,複数の教師なしVOSベンチマークにまたがる最先端性能を実証し,複雑な実世界のマルチオブジェクトビデオセグメンテーションタスクに優れることを示す。
論文 参考訳(メタデータ) (2023-11-29T18:47:17Z) - Rethinking Amodal Video Segmentation from Learning Supervised Signals
with Object-centric Representation [47.39455910191075]
ビデオ・アモーダル・セグメンテーションはコンピュータビジョンにおいて難しい課題である。
近年の研究では、モーションフローを用いて、自己監督された環境下でのフレーム間の情報統合によって、有望な性能を実現している。
本稿では,従来の研究を再考し,特にオブジェクト中心表現を用いた教師付き信号の活用について述べる。
論文 参考訳(メタデータ) (2023-09-23T04:12:02Z) - End-to-End Multimodal Representation Learning for Video Dialog [5.661732643450332]
本研究では,3D-CNNネットワークとトランスフォーマーベースネットワークを1つのビジュアルエンコーダに組み合わせた新しいフレームワークを提案する。
ビジュアルエンコーダは、テキストやオーディオなどの他の入力モダリティと共同で訓練される。
AVSDタスクの実験は、生成タスクと検索タスクの両方において、ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-10-26T06:50:07Z) - Deeply Interleaved Two-Stream Encoder for Referring Video Segmentation [87.49579477873196]
まず,CNNに基づく視覚特徴とトランスフォーマーに基づく言語特徴を階層的に抽出する2ストリームエンコーダを設計する。
視覚言語相互誘導(VLMG)モジュールをエンコーダに複数回挿入し,多モード特徴の階層的および進行的融合を促進する。
フレーム間の時間的アライメントを促進するために,言語誘導型マルチスケール動的フィルタリング(LMDF)モジュールを提案する。
論文 参考訳(メタデータ) (2022-03-30T01:06:13Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。