論文の概要: DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video
- arxiv url: http://arxiv.org/abs/2010.06260v1
- Date: Tue, 13 Oct 2020 09:50:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 23:55:51.208396
- Title: DORi: Discovering Object Relationship for Moment Localization of a
Natural-Language Query in Video
- Title(参考訳): DORi:ビデオ中の自然言語クエリのモーメントローカライゼーションのためのオブジェクト関係の発見
- Authors: Cristian Rodriguez-Opazo and Edison Marrese-Taylor and Basura Fernando
and Hongdong Li and Stephen Gould
- Abstract要約: 本研究では,自然言語クエリを用いて,時間的モーメントローカライゼーションの課題について検討する。
私たちの重要なイノベーションは、言語で条件付きメッセージパッシングアルゴリズムを通じて、ビデオ機能の埋め込みを学ぶことです。
時間的なサブグラフは、時間を通してビデオ内のアクティビティをキャプチャする。
- 参考スコア(独自算出の注目度): 98.54696229182335
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper studies the task of temporal moment localization in a long
untrimmed video using natural language query. Given a query sentence, the goal
is to determine the start and end of the relevant segment within the video. Our
key innovation is to learn a video feature embedding through a
language-conditioned message-passing algorithm suitable for temporal moment
localization which captures the relationships between humans, objects and
activities in the video. These relationships are obtained by a spatial
sub-graph that contextualizes the scene representation using detected objects
and human features conditioned in the language query. Moreover, a temporal
sub-graph captures the activities within the video through time. Our method is
evaluated on three standard benchmark datasets, and we also introduce YouCookII
as a new benchmark for this task. Experiments show our method outperforms
state-of-the-art methods on these datasets, confirming the effectiveness of our
approach.
- Abstract(参考訳): 本稿では,自然言語クエリを用いた長編ビデオにおける時間的モーメントローカライゼーションの課題について検討する。
問合せ文が与えられた場合、目標はビデオ内の関連するセグメントの開始と終了を決定することである。
私たちの重要なイノベーションは、時間的モーメントのローカライゼーションに適した言語条件付きメッセージパッシングアルゴリズムを通じて、ビデオ内の人間、オブジェクト、アクティビティの関係を捉えるビデオ機能を学ぶことです。
これらの関係は、検出されたオブジェクトと言語クエリで条件付けられた人間の特徴を用いてシーン表現をコンテキスト化する空間サブグラフによって得られる。
さらに、テンポラリサブグラフは、時間を通じてビデオ内のアクティビティをキャプチャする。
本手法は,3つの標準ベンチマークデータセットを用いて評価し,新しいベンチマークとしてYouCookIIを導入する。
実験により,本手法はこれらのデータセットの最先端手法よりも優れており,本手法の有効性が確認されている。
関連論文リスト
- A Survey on Video Moment Localization [61.5323647499912]
ビデオモーメントのローカライゼーションは、与えられた自然言語クエリによって記述されたビデオ内のターゲットセグメントを検索することを目的としている。
本稿では,教師付き,弱教師付き,教師なしなどの既存の映像モーメントローカライゼーション手法について概説する。
本稿では,この分野,特に大規模データセットと解釈可能なビデオモーメントローカライゼーションモデルについて論じる。
論文 参考訳(メタデータ) (2023-06-13T02:57:32Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - ClawCraneNet: Leveraging Object-level Relation for Text-based Video
Segmentation [47.7867284770227]
テキストベースのビデオセグメンテーションは、ビデオ内の自然言語参照オブジェクトをセグメンテーションする難しいタスクである。
言語指導でオブジェクトを人間に分割する方法を模倣することで、新しいトップダウンアプローチを導入する。
我々の手法は最先端の手法よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2021-03-19T09:31:08Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Fine-grained Iterative Attention Network for TemporalLanguage
Localization in Videos [63.94898634140878]
ビデオ中の時間的言語ローカライゼーションは、与えられた文クエリに基づいて、ビデオセグメントの1つを未トリミングビデオにグラウンドすることを目的としている。
本稿では,2つのクエリ・ビデオ・インフォーム抽出のための反復的注意モジュールからなる細粒度反復注意ネットワーク(FIAN)を提案する。
本稿では,Ac-tivityNet Captions,TACoS,Charades-STAの3つのベンチマークで提案手法を評価した。
論文 参考訳(メタデータ) (2020-08-06T04:09:03Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。