論文の概要: Implicit and Explicit Commonsense for Multi-sentence Video Captioning
- arxiv url: http://arxiv.org/abs/2303.07545v1
- Date: Tue, 14 Mar 2023 00:19:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-15 16:52:51.002805
- Title: Implicit and Explicit Commonsense for Multi-sentence Video Captioning
- Title(参考訳): マルチセンテンス動画キャプションのための暗黙的および明示的コモンセンス
- Authors: Shih-Han Chou, James J. Little, Leonid Sigal
- Abstract要約: 本稿では,暗黙的(視覚言語と純粋言語)と明示的(知識ベース)のコモンセンス知識を考慮に入れた,トランスフォーマーに基づく新しいビデオキャプションモデルを提案する。
我々は,これらの形態の知識が,単独で,かつ組み合わせて,生成したキャプションの品質を高めることを示す。
- 参考スコア(独自算出の注目度): 38.612857904479604
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing dense or paragraph video captioning approaches rely on holistic
representations of videos, possibly coupled with learned object/action
representations, to condition hierarchical language decoders. However, they
fundamentally lack the commonsense knowledge of the world required to reason
about progression of events, causality, and even function of certain objects
within a scene. To address this limitation we propose a novel video captioning
Transformer-based model, that takes into account both implicit (visuo-lingual
and purely linguistic) and explicit (knowledge-base) commonsense knowledge. We
show that these forms of knowledge, in isolation and in combination, enhance
the quality of produced captions. Further, inspired by imitation learning, we
propose a new task of instruction generation, where the goal is to produce a
set of linguistic instructions from a video demonstration of its performance.
We formalize the task using ALFRED dataset [52] generated using an AI2-THOR
environment. While instruction generation is conceptually similar to paragraph
captioning, it differs in the fact that it exhibits stronger object
persistence, as well as spatially-aware and causal sentence structure. We show
that our commonsense knowledge enhanced approach produces significant
improvements on this task (up to 57% in METEOR and 8.5% in CIDEr), as well as
the state-of-the-art result on more traditional video captioning in the
ActivityNet Captions dataset [29].
- Abstract(参考訳): 既存の高密度または段落ビデオキャプションのアプローチは、階層的言語デコーダを条件付けるために、学習されたオブジェクト/アクション表現と組み合わせたビデオの全体論的表現に依存している。
しかし、それらは基本的に、出来事の進行、因果関係、そしてシーン内の特定の物体の機能について推論するために必要な世界の常識的な知識を欠いている。
この制限に対処するために,暗黙的(言語的および純粋に言語的)と明示的(知識ベース)の常識的知識の両方を考慮した,新しいビデオキャプショントランスフォーマーモデルを提案する。
我々は,これらの形態の知識が,単独でかつ組み合わせて,生成したキャプションの品質を高めることを示す。
さらに,模倣学習にインスパイアされた新しい命令生成タスクを提案する。その目的は,そのパフォーマンスのデモビデオから,言語指導のセットを作成することである。
AI2-THOR環境を用いて生成されたALFREDデータセット[52]を用いてタスクを形式化する。
命令生成は、概念的には段落文と似ているが、空間認識や因果文構造と同様に、より強いオブジェクト永続性を示すという事実が異なる。
我々は,我々の常識的知識向上アプローチが,このタスクにおいて大幅な改善(METEORでは最大57%,CIDErでは8.5%)と,ActivityNet Captionsデータセット[29]における従来のビデオキャプションの最先端結果をもたらすことを示す。
関連論文リスト
- OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Learning Transferable Spatiotemporal Representations from Natural Script
Knowledge [65.40899722211726]
本稿では,ASR(TVTS)のためのビデオトランスクリプト(Turning to Video Transcript for ASR)を提案する。
この利点により、我々のモデルは人間のように起きていることを文脈化し、現実世界の大規模未計算ビデオデータにシームレスに適用することができる。
論文 参考訳(メタデータ) (2022-09-30T07:39:48Z) - Goal-driven text descriptions for images [7.059848512713061]
この論文は視覚入力のテキスト出力を生成することに焦点を当てている。
我々は、より識別しやすいように生成した参照表現を誘導するために、理解機械を使用する。
第5章では,学習目標とサンプリング手法がモデルが多様なキャプションを生成する能力に与える影響について検討した。
論文 参考訳(メタデータ) (2021-08-28T05:10:38Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Spatio-Temporal Graph for Video Captioning with Knowledge Distillation [50.034189314258356]
空間と時間におけるオブジェクトの相互作用を利用したビデオキャプションのためのグラフモデルを提案する。
我々のモデルは解釈可能なリンクを構築し、明示的な視覚的グラウンドを提供することができる。
オブジェクト数の変動による相関を回避するため,オブジェクト認識型知識蒸留機構を提案する。
論文 参考訳(メタデータ) (2020-03-31T03:58:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。