論文の概要: Keyframe Segmentation and Positional Encoding for Video-guided Machine
Translation Challenge 2020
- arxiv url: http://arxiv.org/abs/2006.12799v1
- Date: Tue, 23 Jun 2020 07:15:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 23:00:57.937272
- Title: Keyframe Segmentation and Positional Encoding for Video-guided Machine
Translation Challenge 2020
- Title(参考訳): ビデオ誘導機械翻訳チャレンジ2020におけるキーフレーム分割と位置符号化
- Authors: Tosho Hirasawa and Zhishen Yang and Mamoru Komachi and Naoaki Okazaki
- Abstract要約: 我々は,ビデオ誘導機械翻訳チャレンジ2020に近づいた映像誘導機械翻訳システムについて紹介した。
評価フェーズでは,36.60コーパスレベルBLEU-4を記録し,ビデオ誘導機械翻訳チャレンジ2020で1位を獲得した。
- 参考スコア(独自算出の注目度): 28.38178018722211
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-guided machine translation as one of multimodal neural machine
translation tasks targeting on generating high-quality text translation by
tangibly engaging both video and text. In this work, we presented our
video-guided machine translation system in approaching the Video-guided Machine
Translation Challenge 2020. This system employs keyframe-based video feature
extractions along with the video feature positional encoding. In the evaluation
phase, our system scored 36.60 corpus-level BLEU-4 and achieved the 1st place
on the Video-guided Machine Translation Challenge 2020.
- Abstract(参考訳): 映像とテキストを接接して高品質なテキスト翻訳を実現することを目的としたマルチモーダルニューラルマシン翻訳タスクの1つとしてビデオ誘導機械翻訳
本稿では,ビデオ誘導機械翻訳チャレンジ2020に近づいた映像誘導機械翻訳システムについて紹介する。
本システムは、キーフレームに基づく映像特徴抽出と、映像特徴位置符号化を用いる。
評価段階では,36.60コーパスレベルbleu-4を記録し,ビデオガイド機械翻訳チャレンジ2020で1位となった。
関連論文リスト
- VideoPrism: A Foundational Visual Encoder for Video Understanding [90.01845485201746]
VideoPrismは、単一の凍結モデルで多様なビデオ理解タスクに取り組む汎用ビデオエンコーダである。
我々は,36Mの高品質ビデオキャプチャ対と582Mの動画クリップを含む異種コーパス上で,VoicePrismを事前訓練した。
我々は、Webビデオ質問応答から科学用CVまで、ビデオ理解タスクの4つのグループでビデオPrismを広範囲にテストし、33の動画理解ベンチマークのうち31で最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-02-20T18:29:49Z) - Let's Think Frame by Frame with VIP: A Video Infilling and Prediction
Dataset for Evaluating Video Chain-of-Thought [62.619076257298204]
我々は、少数のビデオ推論のシーケンシャルな理解として、フレーミングビデオ推論を動機付けている。
VIPは、ビデオチェーンオブ思考を通してモデルの推論能力を調べるために設計された、推論時の課題データセットである。
我々は、VIP上でGPT-4、GPT-3、VICUNAをベンチマークし、複雑なビデオ推論タスクのパフォーマンスギャップを実証し、今後の作業を促進する。
論文 参考訳(メタデータ) (2023-05-23T10:26:42Z) - Applying Automated Machine Translation to Educational Video Courses [0.0]
オンラインビデオ教育分野における機械翻訳の自動化能力について検討した。
テキスト音声合成と音声/ビデオ同期を応用し、ターゲット言語でのエンゲージメントビデオの構築を行った。
論文 参考訳(メタデータ) (2023-01-09T01:44:29Z) - The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline
Shared Task [92.5087402621697]
本稿では,IWSLT 2022オフラインタスクに対するエンドツーエンドYiTrans音声翻訳システムの提案について述べる。
YiTransシステムは、大規模な訓練済みエンコーダデコーダモデル上に構築されている。
最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンド・ツー・エンド・システムにランク付けする。
論文 参考訳(メタデータ) (2022-06-12T16:13:01Z) - End-to-end Generative Pretraining for Multimodal Video Captioning [82.79187814057313]
本稿では,未学習ビデオから学習するための新しい事前学習フレームワークであるMV-GPTを提案する。
最近のビデオ言語事前学習フレームワークとは異なり、我々のフレームワークはマルチモーダルビデオエンコーダと文デコーダを共同で訓練する。
本モデルは,4つの標準ベンチマークによるマルチモーダルビデオキャプションの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-01-20T16:16:21Z) - NITS-VC System for VATEX Video Captioning Challenge 2020 [16.628598778804403]
ビデオの視覚的特徴を3次元畳み込みニューラルネットワーク(C3D)を用いて符号化するエンコーダデコーダに基づく手法を用いる。
我々のモデルは、それぞれ公開テストデータセットとプライベートテストデータセットでBLEUスコア0.20と0.22を達成することができる。
論文 参考訳(メタデータ) (2020-06-07T06:39:56Z) - HERO: Hierarchical Encoder for Video+Language Omni-representation
Pre-training [75.55823420847759]
本稿では,大規模ビデオ+言語オムニ表現学習のための新しいフレームワークHEROを提案する。
HEROは階層構造でマルチモーダル入力を符号化し、ビデオフレームのローカルコンテキストをクロスモーダル変換器でキャプチャする。
HEROはHowTo100Mと大規模TVデータセットを共同でトレーニングし、マルチキャラクタインタラクションによる複雑な社会的ダイナミクスの理解を深める。
論文 参考訳(メタデータ) (2020-05-01T03:49:26Z) - Unsupervised Multimodal Video-to-Video Translation via Self-Supervised
Learning [92.17835753226333]
本稿では,教師なしビデオ間翻訳モデルを提案する。
本モデルは,特殊なUVデコーダ構造を用いて,そのスタイルと内容を分解する。
我々のモデルは、マルチモーダルな方法で写真リアリスティックなビデオを作成することができる。
論文 参考訳(メタデータ) (2020-04-14T13:44:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。