論文の概要: O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning
- arxiv url: http://arxiv.org/abs/2108.02359v1
- Date: Thu, 5 Aug 2021 04:17:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 23:53:33.153547
- Title: O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable
Video Captioning
- Title(参考訳): O2NA: 制御可能なビデオキャプションのためのオブジェクト指向非自律的アプローチ
- Authors: Fenglin Liu, Xuancheng Ren, Xian Wu, Bang Yang, Shen Ge, Xu Sun
- Abstract要約: ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。
O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。
MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
- 参考スコア(独自算出の注目度): 41.14313691818424
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video captioning combines video understanding and language generation.
Different from image captioning that describes a static image with details of
almost every object, video captioning usually considers a sequence of frames
and biases towards focused objects, e.g., the objects that stay in focus
regardless of the changing background. Therefore, detecting and properly
accommodating focused objects is critical in video captioning. To enforce the
description of focused objects and achieve controllable video captioning, we
propose an Object-Oriented Non-Autoregressive approach (O2NA), which performs
caption generation in three steps: 1) identify the focused objects and predict
their locations in the target caption; 2) generate the related attribute words
and relation words of these focused objects to form a draft caption; and 3)
combine video information to refine the draft caption to a fluent final
caption. Since the focused objects are generated and located ahead of other
words, it is difficult to apply the word-by-word autoregressive generation
process; instead, we adopt a non-autoregressive approach. The experiments on
two benchmark datasets, i.e., MSR-VTT and MSVD, demonstrate the effectiveness
of O2NA, which achieves results competitive with the state-of-the-arts but with
both higher diversity and higher inference speed.
- Abstract(参考訳): ビデオキャプションは、ビデオ理解と言語生成を組み合わせる。
ビデオキャプションは、ほとんどすべてのオブジェクトの詳細な静的なイメージを記述する画像キャプションとは異なり、通常、背景の変化に関係なく焦点を合わせているオブジェクトなど、集中したオブジェクトに対する一連のフレームとバイアスを考慮している。
したがって,映像キャプションではフォーカス対象の検出と適切な適応が重要である。
被写体の記述を強制し,制御可能な映像キャプションを実現するために,1)被写体を特定し,対象キャプション内の位置を予測する,2)被写体の属性語と関連語を生成してキャプションの草案を作成する,3)映像情報を組み合わせることでキャプションを流動的な最終キャプションに洗練させる,という3ステップでキャプション生成を行うオブジェクト指向非自己回帰アプローチ(o2na)を提案する。
集中オブジェクトは単語よりも先に生成され配置されるので、単語ごとの自己回帰生成プロセスを適用することは困難であり、代わりに非自己回帰的アプローチを採用する。
MSR-VTTとMSVDの2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
関連論文リスト
- Subject-Oriented Video Captioning [64.08594243670296]
そこで本稿では,提案するビデオキャプションタスクである主観的ビデオキャプションを提案する。
我々は、MSVDとMSRVTTという2つの広く使われているビデオキャプションデータセットに基づいて、2つの主題指向ビデオキャプションデータセットを構築した。
最初の試みとして、最先端の4つの一般的なビデオキャプションモデルを評価し、大きな性能低下を観測した。
論文 参考訳(メタデータ) (2023-12-20T17:44:32Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - MeViS: A Large-scale Benchmark for Video Segmentation with Motion
Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。
本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文 参考訳(メタデータ) (2023-08-16T17:58:34Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。
提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文 参考訳(メタデータ) (2021-11-24T13:07:05Z) - Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。
我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文 参考訳(メタデータ) (2021-08-08T15:11:20Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail
Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。
提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文 参考訳(メタデータ) (2020-03-08T04:34:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。