Fugu-MT 論文翻訳(概要): Video Moment Localization using Object Evidence and Reverse Captioning

論文の概要: Video Moment Localization using Object Evidence and Reverse Captioning

arxiv url: http://arxiv.org/abs/2006.10260v1
Date: Thu, 18 Jun 2020 03:45:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-19 14:18:51.193544
Title: Video Moment Localization using Object Evidence and Reverse Captioning
Title（参考訳）: 物体証拠と逆キャプションを用いたビデオモーメント定位
Authors: Madhawa Vidanapathirana, Supriya Pandhre, Sonia Raychaudhuri, Anjali Khurana
Abstract要約: 未編集ビデオにおけるモーメントの時間的局所化の言語による問題に対処する。現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることでこの問題に対処している。本稿では,MACモデルの拡張であるMulti-faceted VideoMoment Localizer (MML)を提案する。
参考スコア（独自算出の注目度）: 1.1549572298362785
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We address the problem of language-based temporal localization of moments in untrimmed videos. Compared to temporal localization with fixed categories, this problem is more challenging as the language-based queries have no predefined activity classes and may also contain complex descriptions. Current state-of-the-art model MAC addresses it by mining activity concepts from both video and language modalities. This method encodes the semantic activity concepts from the verb/object pair in a language query and leverages visual activity concepts from video activity classification prediction scores. We propose "Multi-faceted VideoMoment Localizer" (MML), an extension of MAC model by the introduction of visual object evidence via object segmentation masks and video understanding features via video captioning. Furthermore, we improve language modelling in sentence embedding. We experimented on Charades-STA dataset and identified that MML outperforms MAC baseline by 4.93% and 1.70% on R@1 and R@5metrics respectively. Our code and pre-trained model are publicly available at https://github.com/madhawav/MML.
Abstract（参考訳）: 非トリミングビデオにおけるモーメントの言語に基づく時間的局所化の問題に対処する。固定カテゴリの時間的局所化と比較すると、言語ベースのクエリには事前定義されたアクティビティクラスがなく、複雑な記述も含んでいるため、この問題はより困難である。現在の最先端モデルMACは、ビデオと言語の両方のモダリティから活動概念をマイニングすることで対処している。本手法は,言語クエリにおける動詞/オブジェクトペアからの意味的活動概念を符号化し,ビデオアクティビティ分類予測スコアから視覚的活動概念を活用する。 MML(Multi-faceted VideoMoment Localizer)は,物体分割マスクによる視覚的物体証拠の導入によるMACモデルの拡張と,映像キャプションによる映像理解機能を提案する。さらに,文埋め込みにおける言語モデリングも改善する。我々はCharades-STAデータセットを用いて実験を行い、MMLがMACベースラインを4.93%、R@1とR@5metricsで1.70%上回っていることを確認した。私たちのコードと事前トレーニングされたモデルは、https://github.com/madhawav/mmlで公開されています。

関連論文リスト

ViCaS: A Dataset for Combining Holistic and Pixel-level Video Understanding using Captions with Grounded Segmentation [14.534308478766476]
何千もの挑戦的なビデオを含む新しいデータセットであるViCaSを紹介します。本ベンチマークでは,全体的/高レベルの理解と言語誘導,画素精度のセグメンテーションに関するモデルを評価する。
論文参考訳（メタデータ） (2024-12-12T23:10:54Z)
Cross-modal Information Flow in Multimodal Large Language Models [14.853197288189579]
大規模言語モデル(MLLM)における言語と視覚の異なるモーダル間の情報フローについて検討する。 2つのモダリティを統合する過程には2つの異なる段階があることが分かる。本研究は,MLLMにおける画像および言語処理の空間的・機能的側面について,より包括的かつ包括的視点を提供する。
論文参考訳（メタデータ） (2024-11-27T18:59:26Z)
Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
VLM(Vision-Language Models)は、様々な視覚タスクにまたがる顕著な能力を示す。現在のVLMには基本的な認知能力がなく、コンテキストを考慮し、シーン内のオブジェクトをローカライズすることを学ぶ。この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文参考訳（メタデータ） (2024-11-20T13:34:22Z)
One Token to Seg Them All: Language Instructed Reasoning Segmentation in Videos [41.34787907803329]
VideoLISAは、ビデオ内の言語命令による推論セグメンテーションの問題に対処するために設計された、ビデオベースのマルチモーダルな大規模言語モデルである。 VideoLISAは、言語命令に基づいてビデオ内に時間的に一貫したセグメンテーションマスクを生成する。
論文参考訳（メタデータ） (2024-09-29T07:47:15Z)
ViLLa: Video Reasoning Segmentation with Large Language Model [48.75470418596875]
そこで我々は,新しいビデオセグメンテーションタスクであるビデオ推論セグメンテーションを提案する。このタスクは、複雑な入力テキストクエリが与えられたセグメンテーションマスクのトラックレットを出力するように設計されている。 ViLLa: 大規模言語モデルを用いたビデオ推論セグメンテーションを提案する。
論文参考訳（メタデータ） (2024-07-18T17:59:17Z)
OSCaR: Object State Captioning and State Change Representation [52.13461424520107]
本稿では,OSCaR(Object State Captioning and State Change Representation)データセットとベンチマークを紹介する。 OSCaRは14,084の注釈付きビデオセグメントで構成され、様々なエゴセントリックなビデオコレクションから1,000近いユニークなオブジェクトが集められている。マルチモーダル大言語モデル(MLLM)を評価するための新しいテストベッドを設定する。
論文参考訳（メタデータ） (2024-02-27T01:48:19Z)
Where Visual Speech Meets Language: VSP-LLM Framework for Efficient and Context-Aware Visual Speech Processing [56.71450690166821]
LLM(VSP-LLM)を組み込んだビジュアル音声処理という新しいフレームワークを提案する。 VSP-LLMは、視覚音声認識と翻訳のマルチタスクを実行するように設計されている。ラベル付きデータのたった30時間で訓練されたVSP-LLMは、唇の動きをより効果的に翻訳できることを示す。
論文参考訳（メタデータ） (2024-02-23T07:21:32Z)
Meta-Personalizing Vision-Language Models to Find Named Instances in Video [30.63415402318075]
大規模視覚言語モデル (VLM) は、言語誘導検索アプリケーションにおいて印象的な結果を示している。彼らは現在、My Dog Biscuit'のような特定のオブジェクトインスタンスが現れるビデオの中で、パーソナライズされた瞬間の検索に苦労している。本稿では,VLMのメタパーソナライズ方法,すなわちビデオ検索のテスト時にVLMをパーソナライズする方法を学ぶ。
論文参考訳（メタデータ） (2023-06-16T20:12:11Z)
Self-Chained Image-Language Model for Video Localization and Question Answering [66.86740990630433]
ビデオ上での時間的ローカライゼーションとQAに対処するために,SeViLA(Se-Chained Video-Answering)フレームワークを提案する。 SeViLAフレームワークはLocalizerとAnswererの2つのモジュールで構成されている。
論文参考訳（メタデータ） (2023-05-11T17:23:00Z)
Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。 Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。私たちのコードと事前訓練されたモデルはリリースされます。
論文参考訳（メタデータ） (2021-12-17T15:55:53Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。