論文の概要: Learning Space-Time Semantic Correspondences
- arxiv url: http://arxiv.org/abs/2306.10208v1
- Date: Fri, 16 Jun 2023 23:15:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 23:46:33.059759
- Title: Learning Space-Time Semantic Correspondences
- Title(参考訳): 時空間意味対応の学習
- Authors: Du Tran and Jitendra Malik
- Abstract要約: ソースビデオ、ターゲットビデオ、およびソースビデオ内の時空キーポイントのセットが与えられた場合、そのタスクはターゲットビデオ内のキーポイントのセットを予測する必要がある。
我々は,この課題が,アクティビティコーチング,スポーツ分析,ロボット模倣学習などの応用が可能な,微粒な映像理解に重要であると信じている。
- 参考スコア(独自算出の注目度): 68.06065984976365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new task of space-time semantic correspondence prediction in
videos. Given a source video, a target video, and a set of space-time
key-points in the source video, the task requires predicting a set of keypoints
in the target video that are the semantic correspondences of the provided
source keypoints. We believe that this task is important for fine-grain video
understanding, potentially enabling applications such as activity coaching,
sports analysis, robot imitation learning, and more. Our contributions in this
paper are: (i) proposing a new task and providing annotations for space-time
semantic correspondences on two existing benchmarks: Penn Action and Pouring;
and (ii) presenting a comprehensive set of baselines and experiments to gain
insights about the new problem. Our main finding is that the space-time
semantic correspondence prediction problem is best approached jointly in space
and time rather than in their decomposed sub-problems: time alignment and
spatial correspondences.
- Abstract(参考訳): 映像における時空間意味対応予測の新しい課題を提案する。
ソースビデオ、ターゲットビデオ、およびソースビデオ内の時空間キーポイントのセットを与えられたタスクは、提供されたソースキーポイントの意味対応であるターゲットビデオ内のキーポイントのセットを予測する必要がある。
我々は,この課題が,アクティビティコーチング,スポーツ分析,ロボット模倣学習などの応用が可能な,微粒な映像理解に重要であると信じている。
この論文への私たちの貢献は
(i)ペンアクションと注水という2つの既存のベンチマークにおいて、新しいタスクを提案し、時空意味対応のためのアノテーションを提供する
(ii)新しい問題に関する洞察を得るために、総合的なベースラインと実験を提示すること。
我々の主な発見は、時間-時間意味対応予測問題は、分解された部分問題(時間アライメントと空間対応)ではなく、空間と時間で協調的にアプローチするのが最善であるということである。
関連論文リスト
- ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - What, when, and where? -- Self-Supervised Spatio-Temporal Grounding in Untrimmed Multi-Action Videos from Narrated Instructions [55.574102714832456]
時空間グラウンド(時空間グラウンド)は、空間と時間における事象を局所化するタスクを指す。
このタスクのモデルは、通常、人間の注釈付き文とバウンディングボックスの監督によって訓練される。
我々は,局所的な表現学習と,より詳細な空間情報に焦点を合わせ,高レベルな表現を捉えるグローバルな表現を組み合わせる。
論文 参考訳(メタデータ) (2023-03-29T19:38:23Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Multi-Modal Interaction Graph Convolutional Network for Temporal
Language Localization in Videos [55.52369116870822]
本稿では,ビデオにおける時間的言語ローカライゼーションの問題に対処することに焦点を当てる。
自然言語文で記述された瞬間の始点と終点を、未編集のビデオで識別することを目的としている。
論文 参考訳(メタデータ) (2021-10-12T14:59:25Z) - Text-based Localization of Moments in a Video Corpus [38.393877654679414]
与えられた文問合せのためのビデオコーパス内のモーメントの時間的局所化の課題に対処する。
本稿では,モーメントアライメントネットワーク(HMAN)を提案する。
HMANはビデオ内モーメント間の微妙な違いの学習に加えて、文クエリに基づくビデオ間グローバルセマンティック概念の識別にも重点を置いている。
論文 参考訳(メタデータ) (2020-08-20T00:05:45Z) - Visual Relation Grounding in Videos [86.06874453626347]
映像における視覚的リレーショナルグラウンドディング(RGV)という小説を探索する。
この課題は、他のビデオ言語タスク(例えば、ビデオグラウンドとビデオ質問応答)に対して支援的な視覚的事実を提供することを目的としている。
構築された階層時間領域上の2つの領域列を協調的に最適化することで、課題に対処する。
実験により,本モデルがベースラインアプローチを著しく上回るだけでなく,視覚的に意味のある事実を生成できることが示された。
論文 参考訳(メタデータ) (2020-07-17T08:20:39Z) - Local-Global Video-Text Interactions for Temporal Grounding [77.5114709695216]
本稿では,テキストクエリに関連するビデオの時間間隔を特定することを目的とした,テキスト間時間グラウンドリングの問題に対処する。
そこで本研究では,テキストクエリにおける意味句の中間レベルの特徴の集合を抽出する,新しい回帰モデルを用いてこの問題に対処する。
提案手法は,ローカルからグローバルへのコンテキスト情報を活用することにより,目標時間間隔を効果的に予測する。
論文 参考訳(メタデータ) (2020-04-16T08:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。