Fugu-MT 論文翻訳(概要): O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning

論文の概要: O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning

arxiv url: http://arxiv.org/abs/2108.02359v1
Date: Thu, 5 Aug 2021 04:17:20 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-06 23:53:33.153547
Title: O2NA: An Object-Oriented Non-Autoregressive Approach for Controllable Video Captioning
Title（参考訳）: O2NA: 制御可能なビデオキャプションのためのオブジェクト指向非自律的アプローチ
Authors: Fenglin Liu, Xuancheng Ren, Xian Wu, Bang Yang, Shen Ge, Xu Sun
Abstract要約: ビデオキャプションのためのオブジェクト指向非自己回帰手法(O2NA)を提案する。 O2NAは、1)フォーカス対象を特定し、ターゲットキャプション内の位置を予測すること、2)フォーカス対象の関連属性語と関係語を生成してドラフトキャプションを形成すること、3)ビデオ情報を組み合わせて、ドラフトキャプションを洗練された最終キャプションに変換すること、の3つのステップでキャプション生成を行う。 MSR-VTTとMSVDという2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。
参考スコア（独自算出の注目度）: 41.14313691818424
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Video captioning combines video understanding and language generation. Different from image captioning that describes a static image with details of almost every object, video captioning usually considers a sequence of frames and biases towards focused objects, e.g., the objects that stay in focus regardless of the changing background. Therefore, detecting and properly accommodating focused objects is critical in video captioning. To enforce the description of focused objects and achieve controllable video captioning, we propose an Object-Oriented Non-Autoregressive approach (O2NA), which performs caption generation in three steps: 1) identify the focused objects and predict their locations in the target caption; 2) generate the related attribute words and relation words of these focused objects to form a draft caption; and 3) combine video information to refine the draft caption to a fluent final caption. Since the focused objects are generated and located ahead of other words, it is difficult to apply the word-by-word autoregressive generation process; instead, we adopt a non-autoregressive approach. The experiments on two benchmark datasets, i.e., MSR-VTT and MSVD, demonstrate the effectiveness of O2NA, which achieves results competitive with the state-of-the-arts but with both higher diversity and higher inference speed.
Abstract（参考訳）: ビデオキャプションは、ビデオ理解と言語生成を組み合わせる。ビデオキャプションは、ほとんどすべてのオブジェクトの詳細な静的なイメージを記述する画像キャプションとは異なり、通常、背景の変化に関係なく焦点を合わせているオブジェクトなど、集中したオブジェクトに対する一連のフレームとバイアスを考慮している。したがって,映像キャプションではフォーカス対象の検出と適切な適応が重要である。被写体の記述を強制し,制御可能な映像キャプションを実現するために,1)被写体を特定し,対象キャプション内の位置を予測する,2)被写体の属性語と関連語を生成してキャプションの草案を作成する,3)映像情報を組み合わせることでキャプションを流動的な最終キャプションに洗練させる,という3ステップでキャプション生成を行うオブジェクト指向非自己回帰アプローチ(o2na)を提案する。集中オブジェクトは単語よりも先に生成され配置されるので、単語ごとの自己回帰生成プロセスを適用することは困難であり、代わりに非自己回帰的アプローチを採用する。 MSR-VTTとMSVDの2つのベンチマークデータセットの実験は、O2NAの有効性を実証している。

関連論文リスト

Through-The-Mask: Mask-based Motion Trajectories for Image-to-Video Generation [52.337472185022136]
我々は、静的な画像をテキスト記述に基づいてリアルな映像シーケンスに変換するI2V(Image-to-Video)生成の課題について検討する。 I2V生成を分解する2段階の合成フレームワークを提案する。 (i) 明示的な中間表現生成段階, (ii) この表現に条件付けされたビデオ生成段階。提案手法は,マルチオブジェクトおよびハイモーションシナリオを用いた挑戦的ベンチマークにおいて評価し,提案手法が最先端の整合性を実現することを実証的に示す。
論文参考訳（メタデータ） (2025-01-06T14:49:26Z)
Bi-directional Contextual Attention for 3D Dense Captioning [38.022425401910894]
3Dシークエンスキャプションは、オブジェクトのローカライゼーションと、各オブジェクトの3Dシーンにおける記述の生成を含むタスクである。最近のアプローチでは、オブジェクトペアとの関係をモデル化したり、オブジェクトの最も近い特徴を集約したりすることで、コンテキスト情報を組み込もうとしている。変換器エンコーダ・デコーダパイプラインであるBiCAを導入し,2方向コンテキストアテンションを持つ各オブジェクトに対して3次元の高密度キャプションを行う。
論文参考訳（メタデータ） (2024-08-13T06:25:54Z)
SOVC: Subject-Oriented Video Captioning [59.04029220586337]
本稿では,ビデオキャプションタスクであるSOVC(Subject-Oriented Video Captioning)を提案する。この課題を支援するために、広く使われている2つのビデオキャプションデータセットに基づいて、2つの主観的ビデオキャプションデータセットを構築した。
論文参考訳（メタデータ） (2023-12-20T17:44:32Z)
MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions [93.35942025232943]
複雑な環境下で対象物を示すために,多数の動作表現を含む大規模データセットMeViSを提案する。本ベンチマークの目的は,効率的な言語誘導ビデオセグメンテーションアルゴリズムの開発を可能にするプラットフォームを提供することである。
論文参考訳（メタデータ） (2023-08-16T17:58:34Z)
Learning Grounded Vision-Language Representation for Versatile Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文参考訳（メタデータ） (2023-03-11T11:00:16Z)
Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。 1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文参考訳（メタデータ） (2022-12-27T09:13:19Z)
Hierarchical Modular Network for Video Captioning [162.70349114104107]
ビデオ表現と言語意味論を3つのレベルからブリッジし,キャプションを生成する階層型モジュールネットワークを提案する。提案手法は,MSVD 104.0% と MSR-VTT 51.5% の CIDEr スコアの2つのベンチマークにおいて,最先端のモデルに対して良好に動作する。
論文参考訳（メタデータ） (2021-11-24T13:07:05Z)
Discriminative Latent Semantic Graph for Video Captioning [24.15455227330031]
ビデオキャプションは、あるビデオの視覚的内容を記述する自然言語文を自動的に生成することを目的としている。我々の主な貢献は、将来のビデオ要約タスクのための統合フレームワークにおける3つの重要な問題を特定することである。
論文参考訳（メタデータ） (2021-08-08T15:11:20Z)
MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。 2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文参考訳（メタデータ） (2021-06-06T14:04:07Z)
OVC-Net: Object-Oriented Video Captioning with Temporal Graph and Detail Enhancement [44.228748086927375]
本稿では,ビデオベースのオブジェクト指向ビデオキャプションネットワーク(OVC)-Netを時間グラフと詳細拡張を通じて紹介する。提案手法の有効性を実証するため,新しいデータセットの実験を行い,最先端のビデオキャプション手法と比較した。
論文参考訳（メタデータ） (2020-03-08T04:34:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。