論文の概要: When Did It Happen? Duration-informed Temporal Localization of Narrated
Actions in Vlogs
- arxiv url: http://arxiv.org/abs/2202.08138v1
- Date: Wed, 16 Feb 2022 15:26:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 18:21:25.340736
- Title: When Did It Happen? Duration-informed Temporal Localization of Narrated
Actions in Vlogs
- Title(参考訳): いつ起きたのか?
vlogにおけるナレーション行動の時間的局在
- Authors: Oana Ignat, Santiago Castro, Yuhang Zhou, Jiajun Bao, Dandan Shan
- Abstract要約: ライフスタイルのvlogにおける時間的人間行動のローカライゼーションの課題について考察する。
1200本のビデオクリップで13,000件のナレーション行動に対して,時間的局所化の手動アノテーションを用いた新しいデータセットを提案する。
提案手法は, 予測時間に基づいて, ナレーション行動の局所化を簡易かつ効果的に行う手法である。
- 参考スコア(独自算出の注目度): 3.9146761527401424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider the task of temporal human action localization in lifestyle
vlogs. We introduce a novel dataset consisting of manual annotations of
temporal localization for 13,000 narrated actions in 1,200 video clips. We
present an extensive analysis of this data, which allows us to better
understand how the language and visual modalities interact throughout the
videos. We propose a simple yet effective method to localize the narrated
actions based on their expected duration. Through several experiments and
analyses, we show that our method brings complementary information with respect
to previous methods, and leads to improvements over previous work for the task
of temporal action localization.
- Abstract(参考訳): ライフスタイルのvlogにおける時間的人間行動のローカライゼーションの課題について考察する。
1200本のビデオクリップにおいて,13,000のナレーションアクションの時間的局所化を手作業で記述した新しいデータセットを提案する。
我々は、このデータを広範囲に分析し、ビデオ全体を通して言語と視覚的モダリティがどのように相互作用するかをよりよく理解できるようにする。
提案手法は, 予測時間に基づいて, ナレーション行動の局所化を簡易かつ効果的に行う手法である。
いくつかの実験と分析を通して,本手法は従来の手法と相補的な情報をもたらし,時間的行動の局所化作業における従来の作業よりも改善されることを示す。
関連論文リスト
- Learning to Ground Instructional Articles in Videos through Narrations [50.3463147014498]
ナレーションされたハウツービデオにおける手続き的活動の段階をローカライズするためのアプローチを提案する。
本稿では,教科記事を含む言語知識ベース(wikiHow)からステップ記述を抽出する。
本モデルは,3つのモダリティをマッチングすることにより,プロシージャ記事のステップをハウツービデオに時間的に基礎付けることを学習する。
論文 参考訳(メタデータ) (2023-06-06T15:45:53Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - OWL (Observe, Watch, Listen): Localizing Actions in Egocentric Video via
Audiovisual Temporal Context [58.932717614439916]
我々は,エゴセントリックビデオにおける行動検出における音声の有効性を深く検討する。
本稿では,時間的音声視覚コンテキストを組み込むトランスフォーマーモデルを提案する。
本手法はEPIC-KITCHENS-100の最先端性能を実現する。
論文 参考訳(メタデータ) (2022-02-10T10:50:52Z) - DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video [98.54696229182335]
本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
論文 参考訳(メタデータ) (2020-10-13T09:50:29Z) - Intra- and Inter-Action Understanding via Temporal Action Parsing [118.32912239230272]
本研究では,スポーツビデオにサブアクションの手動アノテーションを付加した新しいデータセットを構築し,その上に時間的行動解析を行う。
スポーツ活動は通常、複数のサブアクションから構成されており、このような時間構造に対する意識は、行動認識に有益であることを示す。
また,時間的解析手法を多数検討し,そのラベルを知らずにトレーニングデータからサブアクションをマイニングできる改良手法を考案した。
論文 参考訳(メタデータ) (2020-05-20T17:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。