Fugu-MT 論文翻訳(概要): Zero-shot Natural Language Video Localization

論文の概要: Zero-shot Natural Language Video Localization

arxiv url: http://arxiv.org/abs/2110.00428v1
Date: Sun, 29 Aug 2021 13:21:50 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-16 21:09:11.381700
Title: Zero-shot Natural Language Video Localization
Title（参考訳）: ゼロショット自然言語ビデオローカライゼーション
Authors: Jinwoo Nam and Daechul Ahn and Dongyeop Kang and Seong Jong Ha and Jonghyun Choi
Abstract要約: 我々は、ゼロショット方式で自然言語ビデオローカライズモデルを訓練する試みを行っている。教師なし画像キャプションのセットアップにインスパイアされて、ランダムテキストコーパス、ラベルなしビデオコレクション、および既製のオブジェクト検出器をモデルに組み込むだけでよい。
参考スコア（独自算出の注目度）: 11.522385805128001
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Understanding videos to localize moments with natural language often requires large expensive annotated video regions paired with language queries. To eliminate the annotation costs, we make a first attempt to train a natural language video localization model in zero-shot manner. Inspired by unsupervised image captioning setup, we merely require random text corpora, unlabeled video collections, and an off-the-shelf object detector to train a model. With the unpaired data, we propose to generate pseudo-supervision of candidate temporal regions and corresponding query sentences, and develop a simple NLVL model to train with the pseudo-supervision. Our empirical validations show that the proposed pseudo-supervised method outperforms several baseline approaches and a number of methods using stronger supervision on Charades-STA and ActivityNet-Captions.
Abstract（参考訳）: 自然言語でモーメントをローカライズするビデオを理解するには、言語クエリと組み合わせた高価な注釈付きビデオ領域が必要となることが多い。アノテーションコストを削減するために,自然言語ビデオローカライズモデルをゼロショットでトレーニングする最初の試みを行った。教師なし画像キャプションのセットアップにインスパイアされて、ランダムテキストコーパス、ラベルなしビデオコレクション、および既製のオブジェクト検出器をモデルに組み込むだけでよい。非ペアデータを用いて、候補時間領域と対応するクエリ文の擬似スーパービジョンを生成し、擬似スーパービジョンでトレーニングするための単純なNLVLモデルを開発する。実験結果から,提案手法は,いくつかのベースラインアプローチや,charades-sta と activitynet-caption の厳格な監視手法よりも優れていることが示された。

関連論文リスト

Chain-of-Thought Textual Reasoning for Few-shot Temporal Action Localization [22.58434223222062]
そこで本研究では,Chain-of-Thought文による時間的局所化手法を提案する。具体的には、テキスト意味情報を活用して、アクションの共通点やバリエーションを捉える能力を高める新しい数ショット学習フレームワークを設計する。公開されているActivityNet1.3とTHUMOS14データセットについて広範な実験を行った。
論文参考訳（メタデータ） (2025-04-18T04:35:35Z)
The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning [89.64905703368255]
ゼロショットビデオキャプションのためのプログレッシブな多粒性テキストプロンプト戦略を提案する。提案手法は,名詞句,名詞句のシーングラフ,全文を含む3つの異なる記憶バンクを構築する。
論文参考訳（メタデータ） (2025-03-31T03:00:19Z)
MLLM as Video Narrator: Mitigating Modality Imbalance in Video Moment Retrieval [53.417646562344906]
Video Moment Retrieval (VMR) は、自然言語クエリが与えられた未トリミング長ビデオ内の特定の時間セグメントをローカライズすることを目的としている。既存の方法は、しばしば不十分なトレーニングアノテーションに悩まされる。つまり、文は通常、単語の多様性が制限された前景の顕著なビデオ内容のごく一部と一致する。この本質的なモダリティの不均衡は、視覚情報のかなりの部分がテキストと一致しないまま残されている。本研究では,MLLMをビデオナレーターとして用いて,ビデオのテキスト記述を多用し,モダリティの不均衡を緩和し,時間的局所化を促進させる。
論文参考訳（メタデータ） (2024-06-25T18:39:43Z)
Harnessing Large Language Models for Training-free Video Anomaly Detection [34.76811491190446]
ビデオ異常検出(VAD)は、ビデオ内の異常事象を時間的に検出することを目的としている。トレーニングベースのメソッドはドメイン固有のものになりがちなので、実践的なデプロイメントにはコストがかかる。 Language-based VAD (LAVAD)を提案する。
論文参考訳（メタデータ） (2024-04-01T09:34:55Z)
Unsupervised Open-Vocabulary Object Localization in Videos [118.32792460772332]
近年,映像表現学習と事前学習型視覚言語モデルの進歩により,自己教師付き映像オブジェクトのローカライゼーションが大幅に向上したことを示す。そこで本稿では,まず,スロットアテンションを考慮したオブジェクト中心アプローチを用いてビデオ内のオブジェクトをローカライズし,得られたスロットにテキストを割り当てる手法を提案する。
論文参考訳（メタデータ） (2023-09-18T15:20:13Z)
Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文参考訳（メタデータ） (2023-07-05T23:01:26Z)
Self-Chained Image-Language Model for Video Localization and Question Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文参考訳（メタデータ） (2023-05-11T17:23:00Z)
Structured Video-Language Modeling with Temporal Grouping and Spatial Grounding [112.3913646778859]
簡単なビデオ言語モデリングフレームワークであるS-ViLMを提案する。これには、学習領域オブジェクトのアライメントと時間認識機能を促進するために、クリップ間の空間的接地と、クリップ内の時間的グループ化という、2つの新しい設計が含まれている。 S-ViLMは4つの下流タスクにおいて、最先端の手法を大幅に超えている。
論文参考訳（メタデータ） (2023-03-28T22:45:07Z)
Refined Vision-Language Modeling for Fine-grained Multi-modal Pre-training [12.760340242744313]
オブジェクトアノテーションに基づくきめ細かい監督は、視覚と言語の事前学習に広く使われている。実世界のアプリケーションシナリオでは、アライメントされたマルチモーダルデータは、通常、画像キャプチャフォーマットで、粗いきめ細かい監視しか提供しません。
論文参考訳（メタデータ） (2023-03-09T15:01:12Z)
Language-free Training for Zero-shot Video Grounding [50.701372436100684]
ビデオグラウンディングは、テキストと動画を同時に理解することで、時間間隔をローカライズすることを目的としている。最も難しい問題のひとつは、非常に時間とコストのかかるアノテーションの収集です。ゼロショット設定におけるビデオグラウンドティングのための,シンプルかつ斬新なトレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-24T06:55:29Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。