論文の概要: MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in
Indonesian
- arxiv url: http://arxiv.org/abs/2306.11341v1
- Date: Tue, 20 Jun 2023 07:19:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 15:24:15.866921
- Title: MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in
Indonesian
- Title(参考訳): MSVD-Indonesian: インドネシアにおけるマルチモーダルビデオテキストタスクのベンチマーク
- Authors: Willy Fitra Hendria
- Abstract要約: MSVDデータセットからインドネシア語文への英語文の翻訳により、インドネシア初のパブリックなビデオテキストデータセットを構築した。
次に、英語のビデオテキストデータセットのために開発されたニューラルネットワークモデルを3つのタスク、すなわち、テキスト・ツー・ビデオ検索、ビデオ・ツー・テキスト検索、ビデオキャプションでトレーニングする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning on video and text data has been receiving growing
attention from many researchers in various research tasks, including
text-to-video retrieval, video-to-text retrieval, and video captioning.
Although many algorithms have been proposed for those challenging tasks, most
of them are developed on English language datasets. Despite Indonesian being
one of the most spoken languages in the world, the research progress on the
multimodal video-text with Indonesian sentences is still under-explored, likely
due to the absence of the public benchmark dataset. To address this issue, we
construct the first public Indonesian video-text dataset by translating English
sentences from the MSVD dataset to Indonesian sentences. Using our dataset, we
then train neural network models which were developed for the English
video-text dataset on three tasks, i.e., text-to-video retrieval, video-to-text
retrieval, and video captioning. The recent neural network-based approaches to
video-text tasks often utilized a feature extractor that is primarily
pretrained on an English vision-language dataset. Since the availability of the
pretraining resources with Indonesian sentences is relatively limited, the
applicability of those approaches to our dataset is still questionable. To
overcome the lack of pretraining resources, we apply cross-lingual transfer
learning by utilizing the feature extractors pretrained on the English dataset,
and we then fine-tune the models on our Indonesian dataset. Our experimental
results show that this approach can help to improve the performance for the
three tasks on all metrics. Finally, we discuss potential future works using
our dataset, inspiring further research in the Indonesian multimodal video-text
tasks. We believe that our dataset and our experimental results could provide
valuable contributions to the community. Our dataset is available on GitHub.
- Abstract(参考訳): ビデオデータとテキストデータのマルチモーダル学習は、テキスト・ツー・ビデオ検索、ビデオ・ツー・テキスト検索、ビデオキャプションなど、様々な研究課題において多くの研究者から注目を集めている。
これらの課題に対して多くのアルゴリズムが提案されているが、そのほとんどは英語のデータセットに基づいて開発されている。
インドネシア語は世界有数の言語であるにもかかわらず、インドネシア語文によるマルチモーダルビデオテキストの研究の進展は、おそらく公開ベンチマークデータセットが欠如しているため、まだ未検討のままである。
この問題に対処するために,msvdデータセットからインドネシア文へ英語文を翻訳することで,インドネシア初の公開ビデオテキストデータセットを構築する。
このデータセットを用いて、英語のビデオテキストデータセット用に開発されたニューラルネットワークモデルを、テキストからビデオへの検索、ビデオからテキストへの検索、ビデオキャプションの3つのタスクでトレーニングする。
最近のニューラルネットワークに基づくビデオテキストタスクのアプローチでは、主に英語の視覚言語データセットで事前学習された特徴抽出器が使用されることが多い。
インドネシア語文による事前学習リソースの可用性は比較的限られているため,これらのアプローチの適用性は依然として疑問視されている。
プリトレーニングリソースの欠如を克服するために,英語データセットにプリトレーニングされた特徴抽出器を用いて言語間転送学習を行い,インドネシアのデータセット上でモデルを微調整する。
実験結果から,本手法は全メトリクスにおける3つのタスクのパフォーマンス向上に役立つことが示された。
最後に,インドネシアのマルチモーダルビデオテキストタスクのさらなる研究を促すために,我々のデータセットを用いた将来的な研究について論じる。
私たちはデータセットと実験結果がコミュニティに貴重な貢献をもたらすと信じています。
データセットはGitHubから入手可能です。
関連論文リスト
- ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval [39.41224716332499]
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
論文 参考訳(メタデータ) (2022-10-07T15:30:24Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。