論文の概要: Discourse Analysis for Evaluating Coherence in Video Paragraph Captions
- arxiv url: http://arxiv.org/abs/2201.06207v1
- Date: Mon, 17 Jan 2022 04:23:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 07:28:07.710305
- Title: Discourse Analysis for Evaluating Coherence in Video Paragraph Captions
- Title(参考訳): ビデオ段落キャプションにおけるコヒーレンス評価のための談話分析
- Authors: Arjun R Akula, Song-Chun Zhu
- Abstract要約: ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。
ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。
実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
- 参考スコア(独自算出の注目度): 99.37090317971312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video paragraph captioning is the task of automatically generating a coherent
paragraph description of the actions in a video. Previous linguistic studies
have demonstrated that coherence of a natural language text is reflected by its
discourse structure and relations. However, existing video captioning methods
evaluate the coherence of generated paragraphs by comparing them merely against
human paragraph annotations and fail to reason about the underlying discourse
structure. At UCLA, we are currently exploring a novel discourse based
framework to evaluate the coherence of video paragraphs. Central to our
approach is the discourse representation of videos, which helps in modeling
coherence of paragraphs conditioned on coherence of videos. We also introduce
DisNet, a novel dataset containing the proposed visual discourse annotations of
3000 videos and their paragraphs. Our experiment results have shown that the
proposed framework evaluates coherence of video paragraphs significantly better
than all the baseline methods. We believe that many other multi-discipline
Artificial Intelligence problems such as Visual Dialog and Visual Storytelling
would also greatly benefit from the proposed visual discourse framework and the
DisNet dataset.
- Abstract(参考訳): ビデオ段落作成は、ビデオ中のアクションのコヒーレントな段落記述を自動的に生成するタスクである。
従来の言語研究では、自然言語テキストのコヒーレンスはその談話構造と関係によって反映されていることが示されている。
しかし,既存のビデオキャプション手法では,人文アノテーションとのみ比較して生成段落のコヒーレンスを評価し,その基盤となる談話構造を説明できない。
UCLAでは,ビデオのコヒーレンスを評価するための新しい談話ベースのフレームワークを現在検討中である。
私たちのアプローチの中心は、ビデオのコヒーレンスに基づく段落のコヒーレンスをモデル化するのに役立つビデオの談話表現です。
また,3000ビデオとその段落の視覚的談話アノテーションを含む新しいデータセットであるDisNetを紹介する。
実験の結果,提案手法はビデオ段落のコヒーレンスをベースライン法よりも有意に向上することが示された。
我々は、ビジュアルダイアログやビジュアルストーリーテリングなど、他の多くの多分野の人工知能問題も、提案されたvisual discourse frameworkとdisnetデータセットの恩恵を受けると信じている。
関連論文リスト
- Exploiting Prompt Caption for Video Grounding [54.46067948276649]
ビデオグラウンド化のためのPCNet(Prompt Caption Network)を提案する。
即時キャプションにおける潜在的な情報を取得するために,キャプション誘導注意(CGA)を提案する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-01-15T02:04:02Z) - Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。
ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。
我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文 参考訳(メタデータ) (2021-08-14T04:00:42Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。
本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文 参考訳(メタデータ) (2021-05-30T09:28:43Z) - Incorporating Domain Knowledge To Improve Topic Segmentation Of Long
MOOC Lecture Videos [4.189643331553923]
本稿では,長い講義ビデオ内に存在するさまざまなコヒーレントなトピックを自動的に検出するアルゴリズムを提案する。
音声からテキストへの書き起こしにおける言語モデルを用いて,ビデオ全体の暗黙的な意味を捉える。
また、インストラクターが結合し、教育中に異なる概念を結びつける方法を捉えることができるドメイン知識も活用します。
論文 参考訳(メタデータ) (2020-12-08T13:37:40Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Neuro-Symbolic Representations for Video Captioning: A Case for
Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。
本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文 参考訳(メタデータ) (2020-11-18T20:21:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。