論文の概要: MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision
and Language Research in Turkish
- arxiv url: http://arxiv.org/abs/2012.07098v1
- Date: Sun, 13 Dec 2020 16:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-09 15:31:16.044747
- Title: MSVD-Turkish: A Comprehensive Multimodal Dataset for Integrated Vision
and Language Research in Turkish
- Title(参考訳): msvd-turkish:トルコにおける統合視覚言語研究のための総合的マルチモーダルデータセット
- Authors: Begum Citamak and Ozan Caglayan and Menekse Kuyu and Erkut Erdem and
Aykut Erdem and Pranava Madhyastha and Lucia Specia
- Abstract要約: ビデオの英語記述をトルコ語に翻訳することで、トルコ語で最初の大規模ビデオキャプションデータセットを作成する。
並行した英語とトルコ語の記述により、機械翻訳におけるビデオコンテキストの役割も研究できる。
ビデオキャプションとマルチモーダル機械翻訳の両方のモデルを構築し、異なる単語分割アプローチの効果を調査します。
- 参考スコア(独自算出の注目度): 36.78907017367128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic generation of video descriptions in natural language, also called
video captioning, aims to understand the visual content of the video and
produce a natural language sentence depicting the objects and actions in the
scene. This challenging integrated vision and language problem, however, has
been predominantly addressed for English. The lack of data and the linguistic
properties of other languages limit the success of existing approaches for such
languages. In this paper we target Turkish, a morphologically rich and
agglutinative language that has very different properties compared to English.
To do so, we create the first large scale video captioning dataset for this
language by carefully translating the English descriptions of the videos in the
MSVD (Microsoft Research Video Description Corpus) dataset into Turkish. In
addition to enabling research in video captioning in Turkish, the parallel
English-Turkish descriptions also enables the study of the role of video
context in (multimodal) machine translation. In our experiments, we build
models for both video captioning and multimodal machine translation and
investigate the effect of different word segmentation approaches and different
neural architectures to better address the properties of Turkish. We hope that
the MSVD-Turkish dataset and the results reported in this work will lead to
better video captioning and multimodal machine translation models for Turkish
and other morphology rich and agglutinative languages.
- Abstract(参考訳): 映像キャプションと呼ばれる自然言語による映像記述の自動生成は、映像の視覚的内容を理解し、シーン内のオブジェクトやアクションを描写した自然言語文を作成することを目的としている。
しかし、この難しい統合的なビジョンと言語問題は、主に英語で扱われている。
データ不足と他の言語の言語特性は、そのような言語に対する既存のアプローチの成功を制限する。
本稿では, 形態的に豊かな, 凝集的な言語であるトルコ語を英語とは大きく異なる特性で対象とする。
そのために,msvd (microsoft research video description corpus) データセットの英語記述をトルコ語に注意深く翻訳することにより,この言語で最初の大規模ビデオキャプションデータセットを作成する。
トルコ語での動画キャプションの研究に加えて、英語とトルコ語の並行記述は、(マルチモーダル)機械翻訳におけるビデオコンテキストの役割の研究も可能にしている。
実験では,ビデオキャプションとマルチモーダル機械翻訳の両方のモデルを構築し,異なる単語分割アプローチと異なるニューラルアーキテクチャの効果を調査し,トルコ語の性質をよりよく理解する。
msvd-turkishデータセットとこの研究で報告された結果は、トルコやその他の形態素豊かで凝集的な言語のための、より良いビデオキャプションとマルチモーダル機械翻訳モデルにつながることを期待している。
関連論文リスト
- Towards Holistic Language-video Representation: the language model-enhanced MSR-Video to Text Dataset [4.452729255042396]
より堅牢で総合的な言語とビデオの表現が、ビデオの理解を前進させる鍵だ。
現在の平易で単純なテキスト記述と、言語ビデオタスクに対する視覚のみの焦点は、現実世界の自然言語ビデオ検索タスクにおいて限られた能力をもたらす。
本稿では,ビデオ言語データセットを自動的に拡張し,モダリティと文脈認識を向上する手法を提案する。
論文 参考訳(メタデータ) (2024-06-19T20:16:17Z) - Multimodal Modeling For Spoken Language Identification [57.94119986116947]
音声言語識別とは、ある発話中の音声言語を自動的に予測するタスクを指す。
本稿では,多モーダル音声言語識別手法であるMuSeLIを提案する。
論文 参考訳(メタデータ) (2023-09-19T12:21:39Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - Language Models with Image Descriptors are Strong Few-Shot
Video-Language Learners [167.0346394848718]
画像と言語モデルを用いたビデオ言語学習システムVidILを提案する。
画像言語モデルを用いて、映像コンテンツをフレームキャプション、オブジェクト、属性、イベントフレーズに変換する。
次に、いくつかのインコンテキスト例を含むプロンプトを持つ言語モデルに指示して、合成されたコンテンツからターゲット出力を生成する。
論文 参考訳(メタデータ) (2022-05-22T05:18:27Z) - Controlling Extra-Textual Attributes about Dialogue Participants: A Case
Study of English-to-Polish Neural Machine Translation [4.348327991071386]
機械翻訳モデルは、英語からポーランド語に翻訳する際に、テキストコンテキストの特定の解釈を選択する必要がある。
本稿では,翻訳における属性の制御に幅広いアプローチを採用するケーススタディを提案する。
最高のモデルでは+5.81 chrF++/+6.03 BLEUが向上し、他のモデルでは競争性能が向上した。
論文 参考訳(メタデータ) (2022-05-10T08:45:39Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Data and Representation for Turkish Natural Language Inference [6.135815931215188]
トルコ語における自然言語推論(NLI)に対する肯定的な反応を提供する。
2つの大きな英語NLIデータセットをトルコ語に翻訳し、専門家のチームが元のラベルへの翻訳品質と忠実さを検証した。
言語内埋め込みは必須であり,学習セットが大きい場所では形態的解析が避けられることがわかった。
論文 参考訳(メタデータ) (2020-04-30T17:12:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。