論文の概要: Video Moment Localization using Object Evidence and Reverse Captioning
- arxiv url: http://arxiv.org/abs/2006.10260v1
- Date: Thu, 18 Jun 2020 03:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:18:51.193544
- Title: Video Moment Localization using Object Evidence and Reverse Captioning
- Title(参考訳): 物体証拠と逆キャプションを用いたビデオモーメント定位
- Authors: Madhawa Vidanapathirana, Supriya Pandhre, Sonia Raychaudhuri, Anjali
Khurana
- Abstract要約: 未編集ビデオにおけるモーメントの時間的局所化の言語による問題に対処する。
現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることでこの問題に対処している。
本稿では,MACモデルの拡張であるMulti-faceted VideoMoment Localizer (MML)を提案する。
- 参考スコア(独自算出の注目度): 1.1549572298362785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of language-based temporal localization of moments in
untrimmed videos. Compared to temporal localization with fixed categories, this
problem is more challenging as the language-based queries have no predefined
activity classes and may also contain complex descriptions. Current
state-of-the-art model MAC addresses it by mining activity concepts from both
video and language modalities. This method encodes the semantic activity
concepts from the verb/object pair in a language query and leverages visual
activity concepts from video activity classification prediction scores. We
propose "Multi-faceted VideoMoment Localizer" (MML), an extension of MAC model
by the introduction of visual object evidence via object segmentation masks and
video understanding features via video captioning. Furthermore, we improve
language modelling in sentence embedding. We experimented on Charades-STA
dataset and identified that MML outperforms MAC baseline by 4.93% and 1.70% on
R@1 and R@5metrics respectively. Our code and pre-trained model are publicly
available at https://github.com/madhawav/MML.
- Abstract(参考訳): 非トリミングビデオにおけるモーメントの言語に基づく時間的局所化の問題に対処する。
固定カテゴリの時間的局所化と比較すると、言語ベースのクエリには事前定義されたアクティビティクラスがなく、複雑な記述も含んでいるため、この問題はより困難である。
現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることで対処している。
本手法は,言語クエリにおける動詞/オブジェクトペアからの意味的活動概念を符号化し,ビデオアクティビティ分類予測スコアから視覚的活動概念を活用する。
MML(Multi-faceted VideoMoment Localizer)は,物体分割マスクによる視覚的物体証拠の導入によるMACモデルの拡張と,映像キャプションによる映像理解機能を提案する。
さらに,文埋め込みにおける言語モデリングも改善する。
我々はCharades-STAデータセットを用いて実験を行い、MMLがMACベースラインを4.93%、R@1とR@5metricsで1.70%上回っていることを確認した。
私たちのコードと事前トレーニングされたモデルは、https://github.com/madhawav/mmlで公開されています。
関連論文リスト
- OSCaR: Object State Captioning and State Change Representation [55.24266209264001]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and
Context-Aware Visual Speech Processing [61.95652444767649]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。
VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。
VSP-LLMは15時間のラベル付きデータでより効果的に唇の動きを認識・翻訳できることを示す。
論文 参考訳(メタデータ) (2024-02-23T07:21:32Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Zero-Shot Dense Video Captioning by Jointly Optimizing Text and Moment [10.567291051485194]
ゼロショット方式で高密度映像キャプションを行う新しい手法であるZeroTAを提案する。
テスト時に各入力ビデオ内のイベントをローカライズし,記述する。
論文 参考訳(メタデータ) (2023-07-05T23:01:26Z) - Meta-Personalizing Vision-Language Models to Find Named Instances in
Video [30.63415402318075]
大規模視覚言語モデル (VLM) は、言語誘導検索アプリケーションにおいて印象的な結果を示している。
彼らは現在、My Dog Biscuit'のような特定のオブジェクトインスタンスが現れるビデオの中で、パーソナライズされた瞬間の検索に苦労している。
本稿では,VLMのメタパーソナライズ方法,すなわちビデオ検索のテスト時にVLMをパーソナライズする方法を学ぶ。
論文 参考訳(メタデータ) (2023-06-16T20:12:11Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - A Hierarchical Multi-Modal Encoder for Moment Localization in Video
Corpus [31.387948069111893]
テキストクエリにセマンティックにマッチする長いビデオにおいて、短いセグメントを識別する方法を示す。
この問題に対処するために、粗いクリップレベルと微調整フレームレベルの両方でビデオをエンコードするHierArchical Multi-Modal EncodeR (HAMMER)を提案する。
我々は、ActivityNet CaptionsとTVRデータセット上のビデオコーパスにおけるモーメントローカライゼーションのモデルを評価するために、広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2020-11-18T02:42:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。