論文の概要: Video Moment Localization using Object Evidence and Reverse Captioning
- arxiv url: http://arxiv.org/abs/2006.10260v1
- Date: Thu, 18 Jun 2020 03:45:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:18:51.193544
- Title: Video Moment Localization using Object Evidence and Reverse Captioning
- Title(参考訳): 物体証拠と逆キャプションを用いたビデオモーメント定位
- Authors: Madhawa Vidanapathirana, Supriya Pandhre, Sonia Raychaudhuri, Anjali
Khurana
- Abstract要約: 未編集ビデオにおけるモーメントの時間的局所化の言語による問題に対処する。
現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることでこの問題に対処している。
本稿では,MACモデルの拡張であるMulti-faceted VideoMoment Localizer (MML)を提案する。
- 参考スコア(独自算出の注目度): 1.1549572298362785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of language-based temporal localization of moments in
untrimmed videos. Compared to temporal localization with fixed categories, this
problem is more challenging as the language-based queries have no predefined
activity classes and may also contain complex descriptions. Current
state-of-the-art model MAC addresses it by mining activity concepts from both
video and language modalities. This method encodes the semantic activity
concepts from the verb/object pair in a language query and leverages visual
activity concepts from video activity classification prediction scores. We
propose "Multi-faceted VideoMoment Localizer" (MML), an extension of MAC model
by the introduction of visual object evidence via object segmentation masks and
video understanding features via video captioning. Furthermore, we improve
language modelling in sentence embedding. We experimented on Charades-STA
dataset and identified that MML outperforms MAC baseline by 4.93% and 1.70% on
R@1 and R@5metrics respectively. Our code and pre-trained model are publicly
available at https://github.com/madhawav/MML.
- Abstract(参考訳): 非トリミングビデオにおけるモーメントの言語に基づく時間的局所化の問題に対処する。
固定カテゴリの時間的局所化と比較すると、言語ベースのクエリには事前定義されたアクティビティクラスがなく、複雑な記述も含んでいるため、この問題はより困難である。
現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることで対処している。
本手法は,言語クエリにおける動詞/オブジェクトペアからの意味的活動概念を符号化し,ビデオアクティビティ分類予測スコアから視覚的活動概念を活用する。
MML(Multi-faceted VideoMoment Localizer)は,物体分割マスクによる視覚的物体証拠の導入によるMACモデルの拡張と,映像キャプションによる映像理解機能を提案する。
さらに,文埋め込みにおける言語モデリングも改善する。
我々はCharades-STAデータセットを用いて実験を行い、MMLがMACベースラインを4.93%、R@1とR@5metricsで1.70%上回っていることを確認した。
私たちのコードと事前トレーニングされたモデルは、https://github.com/madhawav/mmlで公開されています。
関連論文リスト
- Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。
現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。
VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文 参考訳(メタデータ) (2024-09-29T07:47:15Z) - ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。
このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。
ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文 参考訳(メタデータ) (2024-07-18T17:59:17Z) - OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。
OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。
マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文 参考訳(メタデータ) (2024-02-27T01:48:19Z) - Meta-Personalizing Vision-Language Models to Find Named Instances in
Video [30.63415402318075]
大規模視覚言語モデル (VLM) は、言語誘導検索アプリケーションにおいて印象的な結果を示している。
彼らは現在、My Dog Biscuit'のような特定のオブジェクトインスタンスが現れるビデオの中で、パーソナライズされた瞬間の検索に苦労している。
本稿では,VLMのメタパーソナライズ方法,すなわちビデオ検索のテスト時にVLMをパーソナライズする方法を学ぶ。
論文 参考訳(メタデータ) (2023-06-16T20:12:11Z) - Self-Chained Image-Language Model for Video Localization and Question
Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。
SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-05-11T17:23:00Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。