論文の概要: VTC: Improving Video-Text Retrieval with User Comments
- arxiv url: http://arxiv.org/abs/2210.10820v1
- Date: Wed, 19 Oct 2022 18:11:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-21 13:23:05.434782
- Title: VTC: Improving Video-Text Retrieval with User Comments
- Title(参考訳): VTC: ユーザコメントによるビデオテキスト検索の改善
- Authors: Laura Hanu, James Thewlis, Yuki M. Asano, Christian Rupprecht
- Abstract要約: 本稿では,ビデオ,タイトル,コメントの新しいデータセットを紹介する。
コメントを用いることで、画像、ビデオ、音声の表現をより良く、より文脈的に学習することができる。
- 参考スコア(独自算出の注目度): 22.193221760244707
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multi-modal retrieval is an important problem for many applications, such as
recommendation and search. Current benchmarks and even datasets are often
manually constructed and consist of mostly clean samples where all modalities
are well-correlated with the content. Thus, current video-text retrieval
literature largely focuses on video titles or audio transcripts, while ignoring
user comments, since users often tend to discuss topics only vaguely related to
the video. Despite the ubiquity of user comments online, there is currently no
multi-modal representation learning datasets that includes comments. In this
paper, we a) introduce a new dataset of videos, titles and comments; b) present
an attention-based mechanism that allows the model to learn from sometimes
irrelevant data such as comments; c) show that by using comments, our method is
able to learn better, more contextualised, representations for image, video and
audio representations. Project page: https://unitaryai.github.io/vtc-paper.
- Abstract(参考訳): マルチモーダル検索は、レコメンデーションや検索など、多くのアプリケーションにとって重要な問題である。
現在のベンチマークやデータセットも手作業で構築され、ほとんどがクリーンなサンプルで構成されています。
したがって、現在のビデオテキスト検索文献は、ユーザのコメントを無視しながら、主にビデオタイトルや音声の書き起こしに焦点を当てている。
オンライン上でのユーザーコメントが普及しているにもかかわらず、コメントを含むマルチモーダル表現学習データセットは存在しない。
本稿では,
a) ビデオ,タイトル,コメントの新しいデータセットの導入
b) コメント等の無関係なデータからモデルを学ぶための注意に基づくメカニズムを提示すること。
c) コメントを用いることで,画像,映像,音声の表現をより良く,より文脈的に学習できることを示す。
プロジェクトページ: https://unitaryai.github.io/vtc-paper
関連論文リスト
- Improving Video Corpus Moment Retrieval with Partial Relevance Enhancement [72.7576395034068]
Video Corpus Moment Retrieval(VCMR)は、テキストクエリを使って、大量の未トリミングビデオから関連する瞬間を検索するための、新しいビデオ検索タスクである。
我々は、VCMRタスクにおいて、クエリとビデオの間の部分的関係を効果的に捉えることが不可欠であると主張している。
ビデオ検索には,2つのモーダルに対して異なる問合せ表現を生成するマルチモーダル・コラボレーティブ・ビデオレトリバーを導入する。
そこで本研究では,モータリティ特異的なゲートを用いたモーメントローカライザを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:16:06Z) - Multi-event Video-Text Retrieval [33.470499262092105]
Video-Text Retrieval(VTR)は、インターネット上の大量のビデオテキストデータの時代において重要なマルチモーダルタスクである。
マルチイベントビデオテキスト検索(MeVTR)タスクを導入し、各ビデオが複数の異なるイベントを含むシナリオに対処する。
本稿では,MeVTRタスクにキーイベント映像表現とMeVTRロスを付加したシンプルなモデルMe-Retrieverを提案する。
論文 参考訳(メタデータ) (2023-08-22T16:32:46Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection
to Image-Text Pre-Training [70.83385449872495]
映像モーメント検索(VMR)における視覚とテキストの相関
既存の方法は、視覚的およびテキスト的理解のために、個別の事前学習機能抽出器に依存している。
本稿では,映像モーメントの理解を促進するために,ビジュアルダイナミックインジェクション(Visual-Dynamic Injection, VDI)と呼ばれる汎用手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T19:29:05Z) - Learning to Retrieve Videos by Asking Questions [29.046045230398708]
本稿では,ダイアログ(ViReD)を用いたビデオ検索のための新しいフレームワークを提案する。
このフレームワークの主な貢献は、その後のビデオ検索性能を最大化する質問を学習する、新しいマルチモーダル質問生成器である。
AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-11T19:14:39Z) - Modality-Balanced Embedding for Video Retrieval [21.81705847039759]
我々はビデオエンコーダがほぼ完全にテキストマッチングに依存しているモダリティバイアス現象を同定する。
MBVR(Modality Balanced Video Retrievalの略)とMBVR(Modality Balanced Video Retrievalの略)の2つの主要コンポーネントを提案する。
本手法は,モダリティバイアス問題の解法において有効かつ効果的であることを示す。
論文 参考訳(メタデータ) (2022-04-18T06:29:46Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - APES: Audiovisual Person Search in Untrimmed Video [87.4124877066541]
音声人物探索データセット(APES)について述べる。
APESには36時間のビデオにラベル付けされた1,9K以上のIDが含まれている。
APESの重要な特徴は、顔と同一アイデンティティの音声セグメントをリンクする密集した時間アノテーションを含むことである。
論文 参考訳(メタデータ) (2021-06-03T08:16:42Z) - A Straightforward Framework For Video Retrieval Using CLIP [0.0]
ビデオ検索は、テキストクエリがビデオとマッチする、あるいはその逆を行う、難しいタスクである。
このような問題に対処する既存のアプローチのほとんどは、ユーザによるアノテーションに依存しています。
本稿では,このアノテーションを必要とせず,映像表現を得るための言語画像モデルである clip の応用について検討する。
論文 参考訳(メタデータ) (2021-02-24T18:15:12Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。