論文の概要: Image captioning in different languages
- arxiv url: http://arxiv.org/abs/2407.09495v2
- Date: Wed, 30 Oct 2024 11:57:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 21:54:45.768619
- Title: Image captioning in different languages
- Title(参考訳): 異なる言語による画像キャプション
- Authors: Emiel van Miltenburg,
- Abstract要約: 本稿は、2024年5月現在)非英語画像キャプションデータセットのリストを提供する。
わずか23の異なる言語しか表現されないが、+/-500の制度言語は存在する。
本稿では、ビジョン&ランゲージの分野について、いくつかのオープンな質問で締めくくります。
- 参考スコア(独自算出の注目度): 2.1427900765416985
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This short position paper provides a manually curated list of non-English image captioning datasets (as of May 2024). Through this list, we can observe the dearth of datasets in different languages: only 23 different languages are represented. With the addition of the Crossmodal-3600 dataset (Thapliyal et al., 2022, 36 languages) this number increases somewhat, but still this number is small compared to the +/-500 institutional languages that are out there. This paper closes with some open questions for the field of Vision & Language.
- Abstract(参考訳): 本論文は、非英語画像キャプションデータセット(2024年5月現在)を手作業でキュレートしたリストを提供する。
このリストを通じて、異なる言語におけるデータセットの変形を観察できる。
クロスモーダル3600データセット(Thapliyal et al , 2022, 36言語)が加わったことにより、この数字は幾らか増加するが、それでも+/-500の制度言語に比べれば少ない。
本稿では、ビジョン&ランゲージの分野について、いくつかのオープンな質問で締めくくります。
関連論文リスト
- mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。
163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。
さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文 参考訳(メタデータ) (2024-06-13T00:13:32Z) - SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic
Classification in 200+ Languages and Dialects [9.501383449039142]
我々は200の言語と方言のトピック分類のための大規模ベンチマークデータセットであるSIB-200を開発した。
SIB-200でカバーされている多くの言語に対して、これは自然言語理解のための最初の公開評価データセットである。
その結果、多言語モデル、表現不足言語家族、アフリカ、アメリカ、オセアニア、東南アジアの言語が事前学習中に見つからない言語は、トピック分類データセット上で最も低いパフォーマンスを持つことが多いことがわかった。
論文 参考訳(メタデータ) (2023-09-14T05:56:49Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。
我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。
データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文 参考訳(メタデータ) (2023-05-15T09:43:32Z) - Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of
Downstream Tasks [0.007696728525672149]
Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。
これらファースト・オブ・ザ・キンドのベースラインのいくつかは、高リソース言語の最先端のパフォーマンスに匹敵するものである。
論文 参考訳(メタデータ) (2022-10-26T13:45:14Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset [25.651902931992176]
提案するCrossmodal-3600データセット(略してXM3600)は,36言語で人為的な参照キャプションを付加した,地理的に多様な3600画像の集合である。
画像は世界中から選ばれ、36言語が話されている地域をカバーし、すべての言語でスタイルの整合性を達成するキャプションで注釈付けされた。
我々は,XM3600をゴールデンレファレンスとして自動測定に用いた場合,人間の評価と優れた相関関係を示す。
論文 参考訳(メタデータ) (2022-05-25T06:30:19Z) - Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。
単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3~4%の性能評価を行った。
論文 参考訳(メタデータ) (2020-04-09T01:03:44Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。