Fugu-MT 論文翻訳(概要): Discourse Analysis for Evaluating Coherence in Video Paragraph Captions

論文の概要: Discourse Analysis for Evaluating Coherence in Video Paragraph Captions

arxiv url: http://arxiv.org/abs/2201.06207v1
Date: Mon, 17 Jan 2022 04:23:08 GMT
ステータス: 翻訳完了
システム内更新日: 2022-01-21 07:28:07.710305
Title: Discourse Analysis for Evaluating Coherence in Video Paragraph Captions
Title（参考訳）: ビデオ段落キャプションにおけるコヒーレンス評価のための談話分析
Authors: Arjun R Akula, Song-Chun Zhu
Abstract要約: ビデオ段落のコヒーレンスを評価するための,新しい談話に基づく枠組みを検討中である。ビデオのコヒーレンスに条件付き段落のコヒーレンスをモデル化する上で,ビデオの談話表現が中心となる。実験の結果,提案手法は,ビデオ段落のコヒーレンスをベースライン法よりも有意に向上させることがわかった。
参考スコア（独自算出の注目度）: 99.37090317971312
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video paragraph captioning is the task of automatically generating a coherent paragraph description of the actions in a video. Previous linguistic studies have demonstrated that coherence of a natural language text is reflected by its discourse structure and relations. However, existing video captioning methods evaluate the coherence of generated paragraphs by comparing them merely against human paragraph annotations and fail to reason about the underlying discourse structure. At UCLA, we are currently exploring a novel discourse based framework to evaluate the coherence of video paragraphs. Central to our approach is the discourse representation of videos, which helps in modeling coherence of paragraphs conditioned on coherence of videos. We also introduce DisNet, a novel dataset containing the proposed visual discourse annotations of 3000 videos and their paragraphs. Our experiment results have shown that the proposed framework evaluates coherence of video paragraphs significantly better than all the baseline methods. We believe that many other multi-discipline Artificial Intelligence problems such as Visual Dialog and Visual Storytelling would also greatly benefit from the proposed visual discourse framework and the DisNet dataset.
Abstract（参考訳）: ビデオ段落作成は、ビデオ中のアクションのコヒーレントな段落記述を自動的に生成するタスクである。従来の言語研究では、自然言語テキストのコヒーレンスはその談話構造と関係によって反映されていることが示されている。しかし,既存のビデオキャプション手法では,人文アノテーションとのみ比較して生成段落のコヒーレンスを評価し,その基盤となる談話構造を説明できない。 UCLAでは,ビデオのコヒーレンスを評価するための新しい談話ベースのフレームワークを現在検討中である。私たちのアプローチの中心は、ビデオのコヒーレンスに基づく段落のコヒーレンスをモデル化するのに役立つビデオの談話表現です。また,3000ビデオとその段落の視覚的談話アノテーションを含む新しいデータセットであるDisNetを紹介する。実験の結果,提案手法はビデオ段落のコヒーレンスをベースライン法よりも有意に向上することが示された。我々は、ビジュアルダイアログやビジュアルストーリーテリングなど、他の多くの多分野の人工知能問題も、提案されたvisual discourse frameworkとdisnetデータセットの恩恵を受けると信じている。

関連論文リスト

VidText: Towards Comprehensive Evaluation for Video Text Understanding [54.15328647518558]
VidTextは、ビデオテキスト理解の総合的かつ詳細な評価のためのベンチマークである。さまざまな現実世界のシナリオをカバーし、多言語コンテンツをサポートする。ビデオレベル、クリップレベル、インスタンスレベルのタスクを備えた階層的評価フレームワークを導入している。
論文参考訳（メタデータ） (2025-05-28T19:39:35Z)
NAVERO: Unlocking Fine-Grained Semantics for Video-Language Compositionality [52.08735848128973]
本研究では,映像言語モデル(VidL)のオブジェクト間の合成,属性,行動,それらの関係を理解する能力について検討する。負のテキストを付加したビデオテキストデータを用いて合成理解を向上させるNAVEROと呼ばれるトレーニング手法を提案する。
論文参考訳（メタデータ） (2024-08-18T15:27:06Z)
SHE-Net: Syntax-Hierarchy-Enhanced Text-Video Retrieval [11.548061962976321]
我々は新しい構文階層強化テキストビデオ検索法(SHE-Net)を提案する。まず、よりきめ細かい視覚コンテンツの統合を容易にするために、テキスト記述の文法構造を明らかにするテキスト構文階層を用いる。第2に、マルチモーダルな相互作用とアライメントをさらに強化するために、構文階層を利用して類似性計算を導出する。
論文参考訳（メタデータ） (2024-04-22T10:23:59Z)
Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文参考訳（メタデータ） (2023-01-15T02:04:02Z)
Cross-Modal Graph with Meta Concepts for Video Captioning [101.97397967958722]
ビデオキャプションのためのメタ概念を用いたクロスモーダルグラフ(CMG)を提案する。ビデオキャプションで有用な意味概念を網羅するために、テキスト記述のための対応する視覚領域を弱く学習する。我々は、予測された述語を用いて、全体的ビデオレベルおよび局所的フレームレベルのビデオグラフを構築し、ビデオシーケンス構造をモデル化する。
論文参考訳（メタデータ） (2021-08-14T04:00:42Z)
$C^3$: Compositional Counterfactual Contrastive Learning for Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文参考訳（メタデータ） (2021-06-16T16:05:27Z)
Towards Diverse Paragraph Captioning for Untrimmed Videos [40.205433926432434]
既存のアプローチでは、主にイベント検出とイベントキャプションという2つのステップで問題を解決している。本稿では,問題のあるイベント検出段階を抽出し,未トリミングビデオの段落を直接生成する段落生成モデルを提案する。
論文参考訳（メタデータ） (2021-05-30T09:28:43Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。