論文の概要: Ring That Bell: A Corpus and Method for Multimodal Metaphor Detection in
Videos
- arxiv url: http://arxiv.org/abs/2301.01134v1
- Date: Thu, 15 Dec 2022 17:11:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-09 13:47:53.183517
- Title: Ring That Bell: A Corpus and Method for Multimodal Metaphor Detection in
Videos
- Title(参考訳): ring that bell: ビデオにおけるマルチモーダルメタファ検出のためのコーパスと方法
- Authors: Khalid Alnajjar, Mika H\"am\"al\"ainen, Shuo Zhang
- Abstract要約: オープンなマルチモーダルメタファーとして初めて注釈付きコーパスを提示する。
コーパスは、専門家によって注釈付けされたオーディオや字幕を含むビデオで構成されている。
本稿では,ビデオのテキストコンテンツに基づいて,新しいデータセットのメタファを検出する手法を提案する。
- 参考スコア(独自算出の注目度): 7.785769204483243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the first openly available multimodal metaphor annotated corpus.
The corpus consists of videos including audio and subtitles that have been
annotated by experts. Furthermore, we present a method for detecting metaphors
in the new dataset based on the textual content of the videos. The method
achieves a high F1-score (62\%) for metaphorical labels. We also experiment
with other modalities and multimodal methods; however, these methods did not
out-perform the text-based model. In our error analysis, we do identify that
there are cases where video could help in disambiguating metaphors, however,
the visual cues are too subtle for our model to capture. The data is available
on Zenodo.
- Abstract(参考訳): オープンに利用可能な最初のマルチモーダルメタファーアノテーション付きコーパスを提案する。
コーパスは、専門家がアノテートしたオーディオや字幕を含むビデオで構成されている。
さらに,ビデオのテキスト内容に基づいて,新たなデータセット内のメタファを検出する手法を提案する。
メタファーラベルに対して高いf1スコア(62\%)を達成する。
また、他のモダリティやマルチモーダル手法も実験したが、これらの手法はテキストベースモデルよりも優れていなかった。
エラー分析では、ビデオが比喩を曖昧にするのに役立つケースがあるが、われわれのモデルが捉えるには視覚的手がかりがあまりにも微妙すぎる。
データはzenodoで入手できる。
関連論文リスト
- Unveiling the Invisible: Captioning Videos with Metaphors [43.53477124719281]
本稿では,VL(Vision-Language)タスクについて紹介する。
この作業を容易にするために,705の動画と2115の人書きキャプションでデータセットを構築し,リリースする。
また,提案課題における SoTA ビデオ言語モデルに匹敵する性能を持つ低リソースなビデオメタファキャプションシステム GIT-LLaVA を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:32:44Z) - Detours for Navigating Instructional Videos [58.1645668396789]
We propose VidDetours, a video-lang approach that learn to retrieve the target temporal segments from a large repository of how-to's。
本稿では,ビデオ検索と質問応答の最良の方法に比べて,モデルが大幅に改善し,リコール率が35%を超えることを示す。
論文 参考訳(メタデータ) (2024-01-03T16:38:56Z) - A Video is Worth 10,000 Words: Training and Benchmarking with Diverse
Captions for Better Long Video Retrieval [43.58794386905177]
既存の長いビデオ検索システムは、段落から段落までの検索システムで訓練され、テストされる。
これは、ビデオのリッチさと多種多様な有効な記述を無視している。
本稿では,最先端の大規模言語モデルを利用して,多種多様な合成キャプションを注意深く生成するパイプラインを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:59:45Z) - Text-Adaptive Multiple Visual Prototype Matching for Video-Text
Retrieval [125.55386778388818]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、研究の関心が高まっている。
本稿では,テキスト適応型複数プロトタイプマッチングモデルを提案する。
提案手法は,4つの公開ビデオ検索データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2022-09-27T11:13:48Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Less is More: ClipBERT for Video-and-Language Learning via Sparse
Sampling [98.41300980759577]
ビデオと言語の学習に対する標準的なアプローチは、オフラインで抽出された高密度ビデオ機能から学習するニューラルネットワークを規定する。
本稿では,ビデオ・言語タスクに対して,手頃なエンドツーエンド学習を可能にする汎用フレームワークClipBERTを提案する。
6つのデータセットにおけるテキスト・ビデオ検索とビデオ質問応答の実験は、ClipBERTが既存の手法より優れていることを示した。
論文 参考訳(メタデータ) (2021-02-11T18:50:16Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Contextualizing ASR Lattice Rescoring with Hybrid Pointer Network
Language Model [26.78064626111014]
自動音声認識システムを構築する際には,ビデオメタデータが提供する文脈情報を利用することができる。
まず、ビデオメタデータの文脈ベクトル表現を抽出するために注意に基づく手法を用い、これらの表現をニューラルネットワークモデルへの入力の一部として利用する。
次に,メタデータ中の単語の発生確率を明示的に補間する,ハイブリッドポインターネットワーク手法を提案する。
論文 参考訳(メタデータ) (2020-05-15T07:47:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。