論文の概要: Actor and Action Modular Network for Text-based Video Segmentation
- arxiv url: http://arxiv.org/abs/2011.00786v2
- Date: Mon, 22 Aug 2022 01:49:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 12:15:54.545985
- Title: Actor and Action Modular Network for Text-based Video Segmentation
- Title(参考訳): テキストベースビデオセグメンテーションのためのアクタとアクションモジュールネットワーク
- Authors: Jianhua Yang, Yan Huang, Kai Niu, Linjiang Huang, Zhanyu Ma, Liang
Wang
- Abstract要約: テキストベースのビデオセグメンテーションは、アクターとその動作をテキストクエリで指定することで、アクターをビデオシーケンスに分割することを目的としている。
従来の方法では、アクターとそのアクションに従って、ビデオコンテンツとテキストクエリをきめ細かな方法で明示的に調整することができない。
本稿では,アクターとそのアクションを2つの異なるモジュールに個別にローカライズする,アクターとアクションのモジュールネットワークを提案する。
- 参考スコア(独自算出の注目度): 28.104884795973177
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-based video segmentation aims to segment an actor in video sequences by
specifying the actor and its performing action with a textual query. Previous
methods fail to explicitly align the video content with the textual query in a
fine-grained manner according to the actor and its action, due to the problem
of \emph{semantic asymmetry}. The \emph{semantic asymmetry} implies that two
modalities contain different amounts of semantic information during the
multi-modal fusion process. To alleviate this problem, we propose a novel actor
and action modular network that individually localizes the actor and its action
in two separate modules. Specifically, we first learn the actor-/action-related
content from the video and textual query, and then match them in a symmetrical
manner to localize the target tube. The target tube contains the desired actor
and action which is then fed into a fully convolutional network to predict
segmentation masks of the actor. Our method also establishes the association of
objects cross multiple frames with the proposed temporal proposal aggregation
mechanism. This enables our method to segment the video effectively and keep
the temporal consistency of predictions. The whole model is allowed for joint
learning of the actor-action matching and segmentation, as well as achieves the
state-of-the-art performance for both single-frame segmentation and full video
segmentation on A2D Sentences and J-HMDB Sentences datasets.
- Abstract(参考訳): テキストベースのビデオセグメンテーションは、アクターとその動作をテキストクエリで指定することで、アクターをビデオシーケンスに分割することを目的としている。
従来の手法では、アクターとその動作に応じて、ビデオ内容とテキストクエリをきめ細かな方法で明示的に整合させることができず、これは \emph{semantic asymmetric} の問題のためである。
emph{semantic asymmetric} は、2つのモダリティがマルチモーダル融合過程において異なる量の意味情報を含むことを意味する。
この問題を軽減するために,アクターとアクションを2つの異なるモジュールに個別にローカライズする,アクターとアクションのモジュールネットワークを提案する。
具体的には、まず、ビデオおよびテキストクエリからアクタ/アクション関連コンテンツを学び、対称的にマッチングしてターゲットチューブをローカライズする。
ターゲットチューブには所望のアクターとアクションが含まれており、アクターのセグメンテーションマスクを予測するために完全に畳み込みネットワークに送られる。
また,提案手法では,複数のフレームを横断するオブジェクトと時間的提案集約機構の関連性を確立する。
これにより,映像を効果的に分割し,予測の時間的一貫性を維持することができる。
モデル全体がアクタ-アクションマッチングとセグメンテーションの合同学習を可能にし、a2d文とj-hmdb文のデータセット上でのシングルフレームセグメンテーションとフルビデオセグメンテーションの両方の最先端のパフォーマンスを実現する。
関連論文リスト
- Rethinking Video Segmentation with Masked Video Consistency: Did the Model Learn as Intended? [22.191260650245443]
ビデオセグメント化は、ビデオシーケンスを、オブジェクトやフレーム内の関心領域に基づいて意味のあるセグメントに分割することを目的としている。
現在のビデオセグメンテーションモデルは、しばしば画像セグメンテーション技術から派生している。
本研究では,空間的・時間的特徴集約を向上する学習戦略であるMasked Video Consistencyを提案する。
論文 参考訳(メタデータ) (2024-08-20T08:08:32Z) - Boosting Weakly-Supervised Temporal Action Localization with Text
Information [94.48602948837664]
本稿では,アクションクラスラベルに基づくテキスト記述を構築するためのテキストセグメンテーション・マイニング(TSM)機構を提案する。
また,VLC (Video-text Language Completion) という生成目的も導入した。
また,提案手法を既存手法にシームレスに適用し,その性能を明確なマージンで向上させることができる。
論文 参考訳(メタデータ) (2023-05-01T00:07:09Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z) - Video Corpus Moment Retrieval with Contrastive Learning [56.249924768243375]
ビデオコーパスモーメント検索(VCMR)は、与えられたテキストクエリに意味的に対応する時間モーメントを取得することです。
VCMRのためのコントラシブラーニング(ReLoCLNet)を用いた検索・ローカリゼーションネットワークを提案する。
実験の結果、ReLoCLNetは効率のためにテキストとビデオを個別にエンコードし、その検索精度はクロスモーダル相互作用学習を採用するベースラインと匹敵する。
論文 参考訳(メタデータ) (2021-05-13T12:54:39Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。