論文の概要: Zero-shot Natural Language Video Localization
- arxiv url: http://arxiv.org/abs/2110.00428v1
- Date: Sun, 29 Aug 2021 13:21:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-16 21:09:11.381700
- Title: Zero-shot Natural Language Video Localization
- Title(参考訳): ゼロショット自然言語ビデオローカライゼーション
- Authors: Jinwoo Nam and Daechul Ahn and Dongyeop Kang and Seong Jong Ha and
Jonghyun Choi
- Abstract要約: 我々は、ゼロショット方式で自然言語ビデオローカライズモデルを訓練する試みを行っている。
教師なし画像キャプションのセットアップにインスパイアされて、ランダムテキストコーパス、ラベルなしビデオコレクション、および既製のオブジェクト検出器をモデルに組み込むだけでよい。
- 参考スコア(独自算出の注目度): 11.522385805128001
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Understanding videos to localize moments with natural language often requires
large expensive annotated video regions paired with language queries. To
eliminate the annotation costs, we make a first attempt to train a natural
language video localization model in zero-shot manner. Inspired by unsupervised
image captioning setup, we merely require random text corpora, unlabeled video
collections, and an off-the-shelf object detector to train a model. With the
unpaired data, we propose to generate pseudo-supervision of candidate temporal
regions and corresponding query sentences, and develop a simple NLVL model to
train with the pseudo-supervision. Our empirical validations show that the
proposed pseudo-supervised method outperforms several baseline approaches and a
number of methods using stronger supervision on Charades-STA and
ActivityNet-Captions.
- Abstract(参考訳): 自然言語でモーメントをローカライズするビデオを理解するには、言語クエリと組み合わせた高価な注釈付きビデオ領域が必要となることが多い。
アノテーションコストを削減するために,自然言語ビデオローカライズモデルをゼロショットでトレーニングする最初の試みを行った。
教師なし画像キャプションのセットアップにインスパイアされて、ランダムテキストコーパス、ラベルなしビデオコレクション、および既製のオブジェクト検出器をモデルに組み込むだけでよい。
非ペアデータを用いて、候補時間領域と対応するクエリ文の擬似スーパービジョンを生成し、擬似スーパービジョンでトレーニングするための単純なNLVLモデルを開発する。
実験結果から,提案手法は,いくつかのベースラインアプローチや,charades-sta と activitynet-caption の厳格な監視手法よりも優れていることが示された。
関連論文リスト
- MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。
既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。
この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。
本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文 参考訳(メタデータ) (2024-06-25T18:39:43Z) - Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。
トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。
Language-based VAD (LAVAD)を提案する。
論文 参考訳(メタデータ) (2024-04-01T09:34:55Z) - Unsupervised Open-Vocabulary Object Localization in Videos [118.32792460772332]
近年,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。
そこで本稿では,まず,スロットアテンションを考慮したオブジェクト中心アプローチを用いてビデオ内のオブジェクトをローカライズし,得られたスロットにテキストを割り当てる手法を提案する。
論文 参考訳(メタデータ) (2023-09-18T15:20:13Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。
これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。
S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文 参考訳(メタデータ) (2023-03-28T22:45:07Z) - Refined Vision-Language Modeling for Fine-grained Multi-modal
Pre-training [12.760340242744313]
オブジェクトアノテーションに基づくきめ細かい監督は、視覚と言語の事前学習に広く使われている。
実世界のアプリケーションシナリオでは、アライメントされたマルチモーダルデータは、通常、画像キャプチャフォーマットで、粗いきめ細かい監視しか提供しません。
論文 参考訳(メタデータ) (2023-03-09T15:01:12Z) - Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。
最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。
ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-24T06:55:29Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。