論文の概要: Seeing the Unseen: Visual Metaphor Captioning for Videos
- arxiv url: http://arxiv.org/abs/2406.04886v1
- Date: Fri, 7 Jun 2024 12:32:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 14:11:13.793916
- Title: Seeing the Unseen: Visual Metaphor Captioning for Videos
- Title(参考訳): 見えないビデオを見る:ビデオのためのビジュアルメタファーキャプション
- Authors: Abisek Rajakumar Kalarani, Pushpak Bhattacharyya, Sumit Shekhar,
- Abstract要約: 本稿では,VL(Vision-Language)タスクについて紹介する。
この作業を容易にするために,705の動画と2115の人書きキャプションでデータセットを構築し,リリースする。
また,提案課題における SoTA ビデオ言語モデルに匹敵する性能を持つ低リソースなビデオメタファキャプションシステム GIT-LLaVA を提案する。
- 参考スコア(独自算出の注目度): 43.53477124719281
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Metaphors are a common communication tool used in our day-to-day life. The detection and generation of metaphors in textual form have been studied extensively but metaphors in other forms have been under-explored. Recent studies have shown that Vision-Language (VL) models cannot understand visual metaphors in memes and adverts. As of now, no probing studies have been done that involve complex language phenomena like metaphors with videos. Hence, we introduce a new VL task of describing the metaphors present in the videos in our work. To facilitate this novel task, we construct and release a manually created dataset with 705 videos and 2115 human-written captions, along with a new metric called Average Concept Distance (ACD), to automatically evaluate the creativity of the metaphors generated. We also propose a novel low-resource video metaphor captioning system: GIT-LLaVA, which obtains comparable performance to SoTA video language models on the proposed task. We perform a comprehensive analysis of existing video language models on this task and publish our dataset, models, and benchmark results to enable further research.
- Abstract(参考訳): メタファーは私たちの日常生活でよく使われるコミュニケーションツールです。
テキスト形式のメタファーの検出と生成は広く研究されてきたが、他の形式のメタファーは未発見のままである。
近年の研究では、VLモデルはミームや広告の視覚的メタファーを理解できないことが示されている。
現在、ビデオのメタファーのような複雑な言語現象に関する調査は行われていない。
そこで本研究では,ビデオのメタファを記述した新たなVLタスクを提案する。
この作業を容易にするために,705本の動画と2115本の人書きキャプションを手作業で作成したデータセットと,ACD(Average Concept Distance)と呼ばれる新しいメトリクスを構築し,メタファの創造性を自動評価する。
また,提案課題における SoTA ビデオ言語モデルに匹敵する性能を持つ低リソースなビデオメタファキャプションシステム GIT-LLaVA を提案する。
このタスク上で既存のビデオ言語モデルを包括的に分析し、データセット、モデル、ベンチマーク結果を公開し、さらなる研究を可能にする。
関連論文リスト
- A framework for annotating and modelling intentions behind metaphor use [12.40493670580608]
本稿では,9つのカテゴリーから構成されるメタファーに起因した意図の新たな分類法を提案する。
また、メタファの使用の背後にある意図に注釈を付けた最初のデータセットもリリースしました。
このデータセットを用いて、メタファー使用の背景にある意図を、ゼロテキストおよびインコンテキストの少数ショット設定で推測する際の、大きな言語モデル(LLM)の機能をテストする。
論文 参考訳(メタデータ) (2024-07-04T14:13:57Z) - I Spy a Metaphor: Large Language Models and Diffusion Models Co-Create
Visual Metaphors [38.70166865926743]
言語メタファーから視覚的メタファーを生成するための新しい課題を提案する。
これは、暗黙的な意味と構成性をモデル化する能力を必要とするため、拡散ベースのテキスト-画像モデルにとって難しいタスクである。
我々は1,540の言語メタファーとそれに関連する視覚的エラボレートのための6,476の視覚的メタファーを含む高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-05-24T05:01:10Z) - Fine-grained Audible Video Description [61.81122862375985]
FAVDBench(きめのきめ細かな映像記述ベンチマーク)を構築した。
各ビデオクリップについて、まずビデオの1文要約を行い、次に、視覚的詳細を記述した4~6文と、最後に1~2つの音声関連記述を示す。
細かなビデオ記述を利用することで、キャプションよりも複雑なビデオが作成できることを実証する。
論文 参考訳(メタデータ) (2023-03-27T22:03:48Z) - MetaCLUE: Towards Comprehensive Visual Metaphors Research [43.604408485890275]
本稿では,視覚的メタファの視覚的タスクであるMetaCLUEを紹介する。
我々は、アノテーションに基づいて、視覚と言語における最先端モデルの包括的分析を行う。
この研究が、人間のようなクリエイティブな能力を持つAIシステムを開発するための具体的なステップを提供することを期待している。
論文 参考訳(メタデータ) (2022-12-19T22:41:46Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z) - Analogical Reasoning for Visually Grounded Language Acquisition [55.14286413675306]
子どもたちは、周囲の世界を観察し、記述を聴いて、無意識に言語を習得する。
本稿では,この能力をAIにもたらし,視覚的基盤を持つ言語習得の課題を研究する。
類似推論のための新しい機構を付加したマルチモーダル変圧器モデルを提案する。
論文 参考訳(メタデータ) (2020-07-22T20:51:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。