論文の概要: MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian
- arxiv url: http://arxiv.org/abs/2306.11341v2
- Date: Sat, 12 Jul 2025 04:28:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 20:53:34.950368
- Title: MSVD-Indonesian: A Benchmark for Multimodal Video-Text Tasks in Indonesian
- Title(参考訳): MSVD-Indonesian: インドネシアにおけるマルチモーダルビデオテキストタスクのベンチマーク
- Authors: Willy Fitra Hendria,
- Abstract要約: インドネシアでは、MSVDデータセットの英語字幕をインドネシア語に翻訳することで、最初のパブリックなインドネシア語ビデオテキストデータセットを導入する。
3つのタスクに基づいて,英語ビデオテキストデータセットのために開発されたニューラルネットワークモデルを評価する。
インドネシアのデータセット上で,英語に制限された抽出器と微調整モデルを活用することによって,言語間移動学習手法を適用した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning on video and text has seen significant progress, particularly in tasks like text-to-video retrieval, video-to-text retrieval, and video captioning. However, most existing methods and datasets focus exclusively on English. Despite Indonesian being one of the most widely spoken languages, multimodal research in Indonesian remains under-explored, largely due to the lack of benchmark datasets. To address this gap, we introduce the first public Indonesian video-text dataset by translating the English captions in the MSVD dataset into Indonesian. Using this dataset, we evaluate neural network models which were developed for the English video-text dataset on three tasks, i.e., text-to-video retrieval, video-to-text retrieval, and video captioning. Most existing models rely on feature extractors pretrained on English vision-language datasets, raising concerns about their applicability to Indonesian, given the scarcity of large-scale pretraining resources in the language. We apply a cross-lingual transfer learning approach by leveraging English-pretrained extractors and fine-tuning models on our Indonesian dataset. Experimental results demonstrate that this strategy improves performance across all tasks and metrics. We release our dataset publicly to support future research and hope it will inspire further progress in Indonesian multimodal learning.
- Abstract(参考訳): ビデオとテキストのマルチモーダル学習は、特にテキスト・ツー・ビデオ検索、ビデオ・ツー・テキスト検索、ビデオキャプションといったタスクにおいて大きな進歩を遂げている。
しかし、既存の方法やデータセットのほとんどは英語のみに焦点を当てている。
インドネシア語は最も広く話されている言語の一つであるにもかかわらず、インドネシア語におけるマルチモーダルな研究は、主にベンチマークデータセットが欠如しているため、未調査のままである。
このギャップに対処するために,MSVDデータセットの英語字幕をインドネシア語に翻訳することで,インドネシア初の公開ビデオテキストデータセットを導入する。
このデータセットを用いて,テキスト・ツー・ビデオ検索,ビデオ・ツー・テキスト検索,ビデオキャプションという3つのタスクに基づいて,英語のビデオテキストデータセット用に開発されたニューラルネットワークモデルを評価する。
既存のモデルのほとんどは、英語の視覚言語データセットに事前訓練された特徴抽出器に依存しており、インドネシア語への適用性への懸念が高まっている。
インドネシアのデータセット上で,英語に制限された抽出器と微調整モデルを活用することによって,言語間移動学習手法を適用した。
実験結果は、この戦略がすべてのタスクとメトリクスのパフォーマンスを改善することを示している。
インドネシアのマルチモーダル学習のさらなる進歩を期待し、今後の研究を支援するために、我々のデータセットを公開します。
関連論文リスト
- Towards Cross-Lingual Explanation of Artwork in Large-scale Vision Language Models [28.716852515539497]
本研究では、機械翻訳に頼ることなく、複数の言語で拡張データセットを作成する。
リソース豊富な英語のインストラクションチューニングが、他の言語のパフォーマンスを向上させるかどうかを検討した。
論文 参考訳(メタデータ) (2024-09-03T03:42:56Z) - ViLCo-Bench: VIdeo Language COntinual learning Benchmark [8.660555226687098]
ビデオテキストタスクの連続学習モデルを評価するために設計されたViLCo-Benchを提案する。
データセットは10分間のビデオと、公開されているデータセットから収集された対応する言語クエリで構成されている。
本稿では,自己教師付き学習を取り入れ,長期記憶効果と短期記憶効果を模倣する新しい記憶効率フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-19T00:38:19Z) - Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - TVPR: Text-to-Video Person Retrieval and a New Benchmark [10.960048626531993]
本稿では,新しいテキスト・ツー・ビデオ・パーソナリティ検索(TVPR)タスクを提案する。
自然言語で人ビデオを記述するデータセットやベンチマークは存在しないため、大規模なクロスモーダル人ビデオデータセットを構築する。
MFGF(Multielement Feature Guided Fragments Learning)戦略を導入する。
論文 参考訳(メタデータ) (2023-07-14T06:34:00Z) - InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding
and Generation [90.71796406228265]
InternVidは大規模なビデオ中心のマルチモーダルデータセットで、強力で転送可能なビデオテキスト表現の学習を可能にする。
InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップが生成される。
論文 参考訳(メタデータ) (2023-07-13T17:58:32Z) - A Large Cross-Modal Video Retrieval Dataset with Reading Comprehension [49.74647080936875]
テキスト読解機能を備えた大規模・クロスモーダルなビデオ検索データセットであるTextVRを紹介した。
提案したTextVRでは,テキストを認識し,理解し,視覚的コンテキストに関連づけ,ビデオ検索作業に不可欠なテキスト意味情報を決定するために,一種類のクロスモーダルモデルが必要である。
論文 参考訳(メタデータ) (2023-05-05T08:00:14Z) - C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual
Text-Video Retrieval [39.41224716332499]
多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。
英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練する。
我々は、YouCook2ビデオデータセットの英語キャプションを8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。
論文 参考訳(メタデータ) (2022-10-07T15:30:24Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - Understanding Chinese Video and Language via Contrastive Multimodal
Pre-Training [79.88705563918413]
VICTORという新しいビデオ言語理解フレームワークを提案します。VICTORは対比mulTimOdal pRe-trainingによる視覚言語理解の略です。
VICTORは、対応する高品質のテキスト記述を備えた1000万以上の完全なビデオを含む大規模な中国のビデオ言語データセットで訓練されています。
論文 参考訳(メタデータ) (2021-04-19T15:58:45Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Improving Indonesian Text Classification Using Multilingual Language
Model [0.0]
本稿では,インドネシア語テキスト分類モデルの構築における英語とインドネシア語データの組み合わせの効果について検討する。
実験の結果,英語データの追加,特にインドネシア語のデータの量が少ない場合には,性能が向上することがわかった。
論文 参考訳(メタデータ) (2020-09-12T03:16:25Z) - IndoNLU: Benchmark and Resources for Evaluating Indonesian Natural
Language Understanding [41.691861010118394]
インドネシアの自然言語理解タスクをトレーニングし、評価し、ベンチマークするための、史上初の膨大なリソースを紹介します。
IndoNLUには12のタスクが含まれている。
タスクのデータセットは、タスクの多様性を保証するために、さまざまなドメインやスタイルに配置されます。
また、インドネシアの大規模でクリーンなデータセットIndo4Bからトレーニングされたインドネシアの事前訓練モデル(IndoBERT)のセットも提供します。
論文 参考訳(メタデータ) (2020-09-11T12:21:41Z) - Abstractive Summarization of Spoken and Written Instructions with BERT [66.14755043607776]
本稿では,BERTSumモデルの最初の対話型言語への応用について述べる。
我々は多種多様な話題にまたがるナレーションビデオの抽象要約を生成する。
我々は、これをインテリジェントな仮想アシスタントの機能として統合し、要求に応じて文字と音声の両方の指導内容の要約を可能にすることを想定する。
論文 参考訳(メタデータ) (2020-08-21T20:59:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。