論文の概要: Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset
- arxiv url: http://arxiv.org/abs/2205.12522v1
- Date: Wed, 25 May 2022 06:30:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 12:08:20.845411
- Title: Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset
- Title(参考訳): Crossmodal-3600:多言語多言語評価データセット
- Authors: Ashish V. Thapliyal, Jordi Pont-Tuset, Xi Chen, Radu Soricut
- Abstract要約: 提案するCrossmodal-3600データセット(略してXM3600)は,36言語で人為的な参照キャプションを付加した,地理的に多様な3600画像の集合である。
画像は世界中から選ばれ、36言語が話されている地域をカバーし、すべての言語でスタイルの整合性を達成するキャプションで注釈付けされた。
我々は,XM3600をゴールデンレファレンスとして自動測定に用いた場合,人間の評価と優れた相関関係を示す。
- 参考スコア(独自算出の注目度): 25.651902931992176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research in massively multilingual image captioning has been severely
hampered by a lack of high-quality evaluation datasets. In this paper we
present the Crossmodal-3600 dataset (XM3600 in short), a geographically diverse
set of 3600 images annotated with human-generated reference captions in 36
languages. The images were selected from across the world, covering regions
where the 36 languages are spoken, and annotated with captions that achieve
consistency in terms of style across all languages, while avoiding annotation
artifacts due to direct translation. We apply this benchmark to model selection
for massively multilingual image captioning models, and show superior
correlation results with human evaluations when using XM3600 as golden
references for automatic metrics.
- Abstract(参考訳): 多言語画像キャプションの研究は、高品質な評価データセットの欠如によって深刻な障害となっている。
本稿では,36言語で人為的な参照キャプションを付加した3600画像の地理的に多様なデータセットであるCrossmodal-3600データセット(略してXM3600)を提案する。
画像は世界中から選択され、36の言語が話されている地域をカバーし、直接翻訳によるアノテーションのアーティファクトを避けながら、すべての言語でスタイルの一貫性を達成するキャプションで注釈付けされた。
このベンチマークを多言語画像キャプションモデルのモデル選択に適用し,XM3600をゴールデンレファレンスとして用いた場合,人間の評価と優れた相関関係を示す。
関連論文リスト
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - TRINS: Towards Multimodal Language Models that Can Read [61.17806538631744]
TRINSはText-RichイメージINStructionデータセットである。
39,153の画像、キャプション、102,437の質問が含まれている。
本稿では,画像中のテキスト内容の理解に長けたLanguage-vision Reading Assistant(LaRA)を提案する。
論文 参考訳(メタデータ) (2024-06-10T18:52:37Z) - Multilingual and Multimodal Topic Modelling with Pretrained Embeddings [3.0264210068684725]
M3L-Contrastは、M3L(multimodal multilingual)ニューラルトピックモデルである。
本モデルでは,テキストとイメージを共同でトレーニングし,事前学習した文書と画像の埋め込みを利用する。
論文 参考訳(メタデータ) (2022-11-15T11:15:50Z) - MuMUR : Multilingual Multimodal Universal Retrieval [19.242056928318913]
マルチ言語モデルからの知識伝達を利用して,マルチモーダル(画像とビデオ)検索の性能を向上させるフレームワーク MuMUR を提案する。
まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語視覚テキストペアを構築する。
次に、このデータを用いて、英語と非英語のテキストクエリが共通の埋め込み空間で表現される共同視覚テキスト表現を学習する。
論文 参考訳(メタデータ) (2022-08-24T13:55:15Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Multilingual Multimodal Pre-training for Zero-Shot Cross-Lingual
Transfer of Vision-Language Models [144.85290716246533]
視覚言語モデルのゼロショット言語間移動について検討する。
本稿では,文脈化多言語マルチモーダル埋め込みを学習するトランスフォーマティブモデルを提案する。
論文 参考訳(メタデータ) (2021-03-16T04:37:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。