論文の概要: Cosine Similarity of Multimodal Content Vectors for TV Programmes
- arxiv url: http://arxiv.org/abs/2009.11129v1
- Date: Wed, 23 Sep 2020 13:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 15:44:01.876256
- Title: Cosine Similarity of Multimodal Content Vectors for TV Programmes
- Title(参考訳): テレビ番組用マルチモーダルコンテンツベクトルのコサイン類似性
- Authors: Saba Nazir, Taner Cagali, Chris Newell, Mehrnoosh Sadrzadeh
- Abstract要約: 本稿では、ベクトルを用いて各ソースが符号化したコンテンツを表現する方法、中・後期融合技術を用いてベクトルを結合する方法、内容間の意味的類似性を計算する方法について述べる。
我々は,BBCのテレビ番組のデータセットにモデルを実装し,融合表現を評価してレコメンデーションを提案する。
- 参考スコア(独自算出の注目度): 1.5293427903448022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal information originates from a variety of sources: audiovisual
files, textual descriptions, and metadata. We show how one can represent the
content encoded by each individual source using vectors, how to combine the
vectors via middle and late fusion techniques, and how to compute the semantic
similarities between the contents. Our vectorial representations are built from
spectral features and Bags of Audio Words, for audio, LSI topics and Doc2vec
embeddings for subtitles, and the categorical features, for metadata. We
implement our model on a dataset of BBC TV programmes and evaluate the fused
representations to provide recommendations. The late fused similarity matrices
significantly improve the precision and diversity of recommendations.
- Abstract(参考訳): マルチモーダル情報は、オーディオビジュアルファイル、テキスト記述、メタデータなど、さまざまなソースに由来する。
ベクトルを用いて各ソースがエンコードしたコンテンツの表現方法、中・後期融合技術によるベクトルの結合方法、コンテンツ間の意味的類似性を計算する方法を示す。
我々のベクトル表現は、音声、LSIトピック、字幕のDoc2vec埋め込み、メタデータのカテゴリ機能といったスペクトル特徴と音声単語のバグから成り立っている。
我々は,BBCのテレビ番組のデータセットにモデルを実装し,融合表現を評価してレコメンデーションを提案する。
後期融解類似度行列は推奨の精度と多様性を著しく向上させる。
関連論文リスト
- MMTrail: A Multimodal Trailer Video Dataset with Language and Music Descriptions [69.9122231800796]
MMTrailは,2000万回以上のトレーラークリップと視覚的キャプションを組み込んだ大規模マルチモーダルビデオ言語データセットである。
本稿では,27.1k時間以上のトレーラービデオで様々なモダリティアノテーションを実現するシステムキャプションフレームワークを提案する。
我々のデータセットは、大きめのマルチモーダル言語モデルトレーニングのためのパスを舗装する可能性がある。
論文 参考訳(メタデータ) (2024-07-30T16:43:24Z) - Set Prediction Guided by Semantic Concepts for Diverse Video Captioning [47.89731738027379]
我々は、多種多様なキャプションを意味概念に基づく集合予測問題に定式化する。
モデルが意味的に多様なキャプションを生成することを奨励するために,概念に多様性規則化用語を適用した。
提案モデルでは,妥当性と多様性の両指標を用いて,最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2023-12-25T13:13:04Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Video Captioning with Aggregated Features Based on Dual Graphs and Gated
Fusion [6.096411752534632]
ビデオキャプションモデルの応用は、正確な自然言語を用いて動画の内容を翻訳することを目的としている。
既存の方法は、しばしばビデオコンテンツの十分な特徴表現を生成するのに失敗する。
二重グラフとゲート融合に基づくビデオキャプションモデルを提案する。
論文 参考訳(メタデータ) (2023-08-13T05:18:08Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - A Multi-level Alignment Training Scheme for Video-and-Language Grounding [9.866172676211905]
優れたマルチモーダルエンコーダは、入力のセマンティクスを適切にキャプチャし、それらを共有機能空間にエンコードできるべきです。
符号化プロセスを直接整形する多段階アライメントトレーニング手法を開発した。
筆者らのフレームワークは,複数のビデオQAおよび検索データセット上で,過去の最先端技術に匹敵する性能を達成している。
論文 参考訳(メタデータ) (2022-04-22T21:46:52Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - A multimodal approach for multi-label movie genre classification [2.1342631813973507]
The Movie Databaseの152,622タイトルのトレーラービデオクリップ、サブタイトル、シナプス、映画のポスターからなるデータセットを作成しました。
データセットは慎重にキュレーションされ、整理され、この作業のコントリビューションとして利用可能になった。
論文 参考訳(メタデータ) (2020-06-01T00:51:39Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。