論文の概要: Dual-Path Temporal Map Optimization for Make-up Temporal Video Grounding
- arxiv url: http://arxiv.org/abs/2309.06176v1
- Date: Tue, 12 Sep 2023 12:43:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 13:12:04.286328
- Title: Dual-Path Temporal Map Optimization for Make-up Temporal Video Grounding
- Title(参考訳): 時空間ビデオグラウンド作成のためのデュアルパス時間マップ最適化
- Authors: Jiaxiu Li, Kun Li, Jia Li, Guoliang Chen, Dan Guo, Meng Wang
- Abstract要約: メイクアップ時間的ビデオグラウンドニングは、長いビデオが与えられた場合の、メイクアップアクティビティを記述する文に意味的に関連のあるターゲットビデオセグメントをローカライズすることを目的としている。
既存の一般的なアプローチでは、標的となるアクティビティを効果的に見つけることはできない。
本稿では,DPTMO (Dual-Path Temporal Map Optimization Network) という提案に基づく効果的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.603577827106875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Make-up temporal video grounding (MTVG) aims to localize the target video
segment which is semantically related to a sentence describing a make-up
activity, given a long video. Compared with the general video grounding task,
MTVG focuses on meticulous actions and changes on the face. The make-up
instruction step, usually involving detailed differences in products and facial
areas, is more fine-grained than general activities (e.g, cooking activity and
furniture assembly). Thus, existing general approaches cannot locate the target
activity effectually. More specifically, existing proposal generation modules
are not yet fully developed in providing semantic cues for the more
fine-grained make-up semantic comprehension. To tackle this issue, we propose
an effective proposal-based framework named Dual-Path Temporal Map Optimization
Network (DPTMO) to capture fine-grained multimodal semantic details of make-up
activities. DPTMO extracts both query-agnostic and query-guided features to
construct two proposal sets and uses specific evaluation methods for the two
sets. Different from the commonly used single structure in previous methods,
our dual-path structure can mine more semantic information in make-up videos
and distinguish fine-grained actions well. These two candidate sets represent
the cross-modal makeup video-text similarity and multi-modal fusion
relationship, complementing each other. Each set corresponds to its respective
optimization perspective, and their joint prediction enhances the accuracy of
video timestamp prediction. Comprehensive experiments on the YouMakeup dataset
demonstrate our proposed dual structure excels in fine-grained semantic
comprehension.
- Abstract(参考訳): メイクアップ時間的ビデオグラウンドティング(MTVG)は、長いビデオが与えられた場合、メイクアップ活動を記述する文に意味的に関連のあるターゲットビデオセグメントをローカライズすることを目的としている。
一般的なビデオグラウンドタスクと比較して、MTVGは繊細な行動と顔の変化に焦点を当てている。
通常、製品と顔領域の詳細な違いを含むメイクアップ指導手順は、一般的な活動(調理活動や家具組み立てなど)よりもきめ細かいものである。
したがって、既存の一般的なアプローチでは、効果的にターゲットアクティビティを見つけることはできない。
より具体的には、既存の提案生成モジュールは、よりきめ細かいメイクアップ意味理解のための意味的手がかりを提供するためにまだ完全には開発されていない。
この問題に対処するため,DPTMO(Dual-Path Temporal Map Optimization Network)と呼ばれる効果的な提案ベースのフレームワークを提案する。
dptmoは2つの提案セットを構築するためにクエリ非依存機能とクエリ誘導機能の両方を抽出し、2つのセットの特定の評価方法を使用する。
従来の手法と異なり、我々のデュアルパス構造は、メイクアップビデオでより多くの意味情報をマイニングし、きめ細かいアクションを識別することができる。
これら2つの候補セットは、相互に相補的なビデオテキスト類似性とマルチモーダル融合関係を表す。
各セットはそれぞれの最適化視点に対応し、その共同予測はビデオタイムスタンプ予測の精度を高める。
YouMakeupデータセットの包括的実験により,提案した2つの構造がよりきめ細かな意味的理解において優れていることを示す。
関連論文リスト
- Storyboard guided Alignment for Fine-grained Video Action Recognition [32.02631248389487]
微細なビデオアクション認識は、ビデオテキストマッチング問題として概念化することができる。
i) 異なるグローバルなセマンティクスを持つビデオは、類似したアトミックなアクションや外観を共有し、(ii) ビデオ内のアトミックなアクションは、瞬間的、遅い、あるいは、グローバルなビデオセマンティクスと直接的に関係しない、という2つの観察に基づく多粒度フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:40:41Z) - Multi-Modal Domain Adaptation Across Video Scenes for Temporal Video
Grounding [59.599378814835205]
時間的ビデオグラウンドリング(TVG)は、与えられた言語クエリに基づいて、特定のセグメントの時間的境界を未トリミングビデオにローカライズすることを目的としている。
そこで本研究では,対象データからの洞察を取り入れた新たなAMDA手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T07:49:27Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Dual Prototype Attention for Unsupervised Video Object Segmentation [28.725754274542304]
教師なしビデオオブジェクトセグメンテーション(VOS)は、ビデオ中の最も有能なオブジェクトを検出し、セグメンテーションすることを目的としている。
本稿では,2つの新しいプロトタイプベースアテンション機構,IMA(Inter-modality attention)とフレーム間アテンション(IFA)を提案する。
論文 参考訳(メタデータ) (2022-11-22T06:19:17Z) - Correspondence Matters for Video Referring Expression Comprehension [64.60046797561455]
ビデオ参照表現(REC)は、文章に記述された参照オブジェクトをビデオフレーム内の視覚領域にローカライズすることを目的としている。
既存の手法では,1)ビデオフレーム間の非一貫性な局所化結果,2)参照オブジェクトとコンテキストオブジェクトの混同という2つの問題に悩まされている。
本稿では、フレーム間およびクロスモーダルの両方で密接な関連性を明確に強化する新しいデュアル対応ネットワーク(DCNet)を提案する。
論文 参考訳(メタデータ) (2022-07-21T10:31:39Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Unsupervised Temporal Video Grounding with Deep Semantic Clustering [58.95918952149763]
時間的ビデオグラウンドティングは、所定の文クエリに従って、ビデオ内のターゲットセグメントをローカライズすることを目的としている。
本稿では,ペアアノテーションを使わずにビデオグラウンドモデルが学べるかどうかを考察する。
ペア化された監視が存在しないことを考慮し,クエリ集合全体からすべての意味情報を活用するための新しいDeep Semantic Clustering Network (DSCNet)を提案する。
論文 参考訳(メタデータ) (2022-01-14T05:16:33Z) - A Simple Yet Effective Method for Video Temporal Grounding with
Cross-Modality Attention [31.218804432716702]
言語誘導ビデオの時間的グラウンド化の課題は、検索文に対応する特定のビデオクリップを、未トリミングビデオでローカライズすることである。
直感的な構造設計が可能な単純な2分岐クロスモダリティアテンション(CMA)モジュールを提案する。
さらに,アノテーションバイアスの影響を緩和し,時間的接地精度を向上させるタスク固有回帰損失関数を導入する。
論文 参考訳(メタデータ) (2020-09-23T16:03:00Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。