論文の概要: Exploring Motion and Appearance Information for Temporal Sentence
Grounding
- arxiv url: http://arxiv.org/abs/2201.00457v1
- Date: Mon, 3 Jan 2022 02:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-04 14:24:54.677148
- Title: Exploring Motion and Appearance Information for Temporal Sentence
Grounding
- Title(参考訳): 時間文接地のための動きと外観情報の探索
- Authors: Daizong Liu, Xiaoye Qu, Pan Zhou, Yang Liu
- Abstract要約: 本研究では、時間的文のグラウンド化を解決するために、MARN(Motion-Appearance Reasoning Network)を提案する。
動作誘導と外見誘導のオブジェクト関係を学習するために,動作分岐と外見分岐を別々に開発する。
提案するMARNは,従来の最先端手法よりも大きなマージンで優れていた。
- 参考スコア(独自算出の注目度): 52.01687915910648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses temporal sentence grounding. Previous works typically
solve this task by learning frame-level video features and align them with the
textual information. A major limitation of these works is that they fail to
distinguish ambiguous video frames with subtle appearance differences due to
frame-level feature extraction. Recently, a few methods adopt Faster R-CNN to
extract detailed object features in each frame to differentiate the
fine-grained appearance similarities. However, the object-level features
extracted by Faster R-CNN suffer from missing motion analysis since the object
detection model lacks temporal modeling. To solve this issue, we propose a
novel Motion-Appearance Reasoning Network (MARN), which incorporates both
motion-aware and appearance-aware object features to better reason object
relations for modeling the activity among successive frames. Specifically, we
first introduce two individual video encoders to embed the video into
corresponding motion-oriented and appearance-aspect object representations.
Then, we develop separate motion and appearance branches to learn motion-guided
and appearance-guided object relations, respectively. At last, both motion and
appearance information from two branches are associated to generate more
representative features for final grounding. Extensive experiments on two
challenging datasets (Charades-STA and TACoS) show that our proposed MARN
significantly outperforms previous state-of-the-art methods by a large margin.
- Abstract(参考訳): 本論文は時間的文接頭辞に対処する。
それまでの作業は、フレームレベルのビデオ機能を学び、それらをテキスト情報と整合させることで、この課題を解決してきた。
これらの作業の大きな制限は、フレームレベルの特徴抽出による微妙な外観の違いで曖昧なビデオフレームを区別できないことである。
近年,Faster R-CNNを用いて各フレームの詳細なオブジェクトの特徴を抽出し,外観の微妙な類似性を識別する手法が提案されている。
しかし、Faster R-CNNが抽出したオブジェクトレベルの特徴は、オブジェクト検出モデルに時間的モデリングが欠けているため、動作解析に支障をきたす。
この問題を解決するために,動作認識と外観認識の両方のオブジェクト特徴を取り入れた,連続するフレーム間のアクティビティをモデル化するためのオブジェクト関係をより適切に推論する新しい動き認識推論ネットワーク(MARN)を提案する。
具体的には,まずビデオエンコーダを2つ導入し,映像を映像指向表現と外観指向オブジェクト表現に埋め込む。
次に,運動誘導と出現誘導対象の関係をそれぞれ学習するために,運動と出現の枝を分離する。
最終的に、2つの枝からの動作情報と外観情報を関連付け、最終接地のためのより代表的な特徴を生成する。
2つの挑戦的データセット(Charades-STAとTACoS)に対する大規模な実験により、提案したMARNは従来の最先端手法よりも大きなマージンで大幅に優れていた。
関連論文リスト
- VrdONE: One-stage Video Visual Relation Detection [30.983521962897477]
Video Visual Relation Detection (VidVRD)は、ビデオの時間と空間におけるエンティティの理解に焦点を当てている。
VidVRDの従来の手法は、その複雑さに悩まされ、通常、タスクを2つの部分に分割する。
VidVRDのワンステージモデルであるVrdONEを提案する。
論文 参考訳(メタデータ) (2024-08-18T08:38:20Z) - Appearance-Based Refinement for Object-Centric Motion Segmentation [85.2426540999329]
本稿では,ビデオストリームの時間的一貫性を利用して,不正確なフローベース提案を補正する外観に基づく改善手法を提案する。
提案手法では,高精度なフロー予測マスクを模範として,シーケンスレベルの選択機構を用いる。
パフォーマンスは、DAVIS、YouTube、SegTrackv2、FBMS-59など、複数のビデオセグメンテーションベンチマークで評価されている。
論文 参考訳(メタデータ) (2023-12-18T18:59:51Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - Coarse-Fine Networks for Temporal Activity Detection in Videos [45.03545172714305]
Co-Fine Networks」は、時間分解の異なる抽象化の恩恵を受け、長期的な動きのためのより良いビデオ表現を学ぶ2流アーキテクチャです。
提案手法は,計算量とメモリフットプリントを大幅に削減して,公開データセットにおける動作検出の最先端を上回ることができることを示す。
論文 参考訳(メタデータ) (2021-03-01T20:48:01Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。