Fugu-MT 論文翻訳(概要): Video Summarization: Towards Entity-Aware Captions

論文の概要: Video Summarization: Towards Entity-Aware Captions

arxiv url: http://arxiv.org/abs/2312.02188v1
Date: Fri, 1 Dec 2023 23:56:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-06 18:33:04.462695
Title: Video Summarization: Towards Entity-Aware Captions
Title（参考訳）: ビデオ要約:エンティティ対応キャプションに向けて
Authors: Hammad A. Ayyubi, Tianqi Liu, Arsha Nagrani, Xudong Lin, Mingda Zhang, Anurag Arnab, Feng Han, Yukun Zhu, Jialu Liu, Shih-Fu Chang
Abstract要約: 本稿では,ニュース映像をエンティティ対応キャプションに直接要約するタスクを提案する。提案手法は,既存のニュース画像キャプションデータセットに一般化されていることを示す。
参考スコア（独自算出の注目度）: 75.71891605682931
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Existing popular video captioning benchmarks and models deal with generic captions devoid of specific person, place or organization named entities. In contrast, news videos present a challenging setting where the caption requires such named entities for meaningful summarization. As such, we propose the task of summarizing news video directly to entity-aware captions. We also release a large-scale dataset, VIEWS (VIdeo NEWS), to support research on this task. Further, we propose a method that augments visual information from videos with context retrieved from external world knowledge to generate entity-aware captions. We demonstrate the effectiveness of our approach on three video captioning models. We also show that our approach generalizes to existing news image captions dataset. With all the extensive experiments and insights, we believe we establish a solid basis for future research on this challenging task.
Abstract（参考訳）: 既存の人気ビデオキャプションベンチマークやモデルでは、特定の人物、場所、組織名なしの一般的なキャプションを扱う。対照的に、ニュースビデオは、キャプションが意味のある要約のためにそのような名前のエンティティを必要とする困難な設定を示す。そこで本稿では,ニュースビデオを直接エンティティ対応キャプションに要約するタスクを提案する。また、このタスクの研究を支援するために、大規模なデータセットVIEWS(VIdeo NEWS)をリリースしています。さらに,外部の知識から抽出した文脈で映像からの視覚情報を増強し,エンティティ対応キャプションを生成する手法を提案する。提案手法の有効性を3つのビデオキャプションモデルに示す。また,本手法が既存のニュース画像キャプションデータセットに一般化することを示す。広範な実験と洞察によって、我々はこの挑戦的な課題に関する将来の研究の確固たる基盤を確立すると信じている。

関連論文リスト

Controllable Hybrid Captioner for Improved Long-form Video Understanding [0.24578723416255746]
ビデオデータは極めて密度が高く、高次元である。テキストベースの動画コンテンツの要約は、生よりはるかにコンパクトな方法でコンテンツを表現する方法を提供する。静的なシーン記述でメモリを豊かにするビジョン言語モデル(VLM)を導入する。
論文参考訳（メタデータ） (2025-07-22T22:09:00Z)
Grounded Video Caption Generation [74.23767687855279]
そこで我々は,グラウンドドビデオキャプション生成のための新しいタスク,データセット,モデルを提案する。このタスクはビデオ内のキャプションとオブジェクトのグラウンドを統一し、キャプション内のオブジェクトは時間的に一貫したバウンディングボックスを通じてビデオ内にグラウンドされる。本稿では,新しいビデオキャプション生成モデルであるVideoGroundを導入し,自動アノテーション付きHowToGroundデータセット上でモデルをトレーニングする。
論文参考訳（メタデータ） (2024-11-12T06:44:24Z)
Exploiting Auxiliary Caption for Video Grounding [66.77519356911051]
ビデオグラウンディングは、あるクエリ文にマッチする興味のある瞬間を、トリミングされていないビデオから見つけることを目的としている。以前の作業では、潜在的なイベントとデータセット内のクエリ文の間のコンテキスト情報の提供に失敗する、ビデオアノテーションの疎度ジレンマを無視していた。具体的には、まず高密度なキャプションを生成し、次に非補助的なキャプション抑制(NACS)によって補助的なキャプションを得る。補助キャプションにおける潜在的な情報を取得するために,補助キャプション間の意味的関係を計画するキャプションガイド注意(CGA)を提案する。
論文参考訳（メタデータ） (2023-01-15T02:04:02Z)
CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文参考訳（メタデータ） (2021-07-01T17:59:27Z)
Spoken Moments: Learning Joint Audio-Visual Representations from Video Descriptions [75.77044856100349]
我々は、異なるイベントの広い範囲を描写するユニークな短いビデオに起因する500k話されたキャプションのSpoken Momentsデータセットを提示します。 AMMアプローチは一貫して結果を改善し、Spoken Momentsデータセットで訓練されたモデルは、他のビデオキャプションデータセットで訓練されたモデルよりも汎用性が高いことを示しています。
論文参考訳（メタデータ） (2021-05-10T16:30:46Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)
Enriching Video Captions With Contextual Text [9.994985014558383]
視覚的入力に基づいて映像キャプションを生成するエンドツーエンドのシーケンス・ツー・シーケンスモデルを提案する。我々はさらにテキストを前処理しておらず、モデルに直接それに参加することを学ばせています。
論文参考訳（メタデータ） (2020-07-29T08:58:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。