Fugu-MT 論文翻訳(概要): Image captioning in different languages

論文の概要: Image captioning in different languages

arxiv url: http://arxiv.org/abs/2407.09495v1
Date: Fri, 31 May 2024 09:37:54 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-22 13:38:25.575037
Title: Image captioning in different languages
Title（参考訳）: 異なる言語による画像キャプション
Authors: Emiel van Miltenburg,
Abstract要約: 本論文は、2024年5月現在)非英語画像キャプションデータセットのリストを提供する。このデータセットには23の異なる言語しか表示されていない。本稿では、ビジョン&ランゲージの分野について、いくつかのオープンな質問で締めくくります。
参考スコア（独自算出の注目度）: 2.1427900765416985
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This short position paper provides a manually curated list of non-English image captioning datasets (as of May 2024). Through this list, we can observe the dearth of datasets in different languages: only 23 different languages are represented. With the addition of the Crossmodal-3600 dataset (Thapliyal et al., 2022, 36 languages) this number increases somewhat, but still this number is tiny compared to the thousands of spoken languages that exist. This paper closes with some open questions for the field of Vision & Language.
Abstract（参考訳）: 本論文は、非英語画像キャプションデータセット(2024年5月現在)を手作業でキュレートしたリストを提供する。このリストを通じて、異なる言語におけるデータセットの変形を観察できる。クロスモーダル3600データセット(Thapliyal et al , 2022, 36言語)が加わったことにより、この数字は幾らか増加するが、それでもこの数字は存在する数千の言語と比較して小さい。本稿では、ビジョン&ランゲージの分野について、いくつかのオープンな質問で締めくくります。

関連論文リスト

POLYCHARTQA: Benchmarking Large Vision-Language Models with Multilingual Chart Question Answering [69.52231076699756]
PolyChartQAは10の言語で22,606のチャートと26,151の質問応答ペアをカバーする最初の大規模多言語チャート回答ベンチマークである。我々は、最先端のLLMベースの翻訳を活用し、パイプラインにおける厳密な品質制御を適用し、生成された多言語チャートの言語的および意味的一貫性を確保する。
論文参考訳（メタデータ） (2025-07-16T06:09:02Z)
Cross-Lingual Representation Alignment Through Contrastive Image-Caption Tuning [22.548938145271197]
多言語画像キャプチャアライメントは、言語間のテキスト表現を暗黙的にアライメントすることができる。これらの整列表現は、言語間自然言語理解(NLU)とbitext検索に利用できる。
論文参考訳（メタデータ） (2025-05-19T18:06:45Z)
mOSCAR: A Large-scale Multilingual and Multimodal Document-level Corpus [52.83121058429025]
ウェブからクロールされた最初の大規模多言語およびマルチモーダル文書コーパスであるmOSCARを紹介する。 163の言語、315万のドキュメント、214Bトークン、1.2Bイメージをカバーしている。さまざまなマルチリンガル画像テキストタスクとベンチマークで、数ショットの学習パフォーマンスが大幅に向上している。
論文参考訳（メタデータ） (2024-06-13T00:13:32Z)
SIB-200: A Simple, Inclusive, and Big Evaluation Dataset for Topic Classification in 200+ Languages and Dialects [9.501383449039142]
我々は200の言語と方言のトピック分類のための大規模ベンチマークデータセットであるSIB-200を開発した。 SIB-200でカバーされている多くの言語に対して、これは自然言語理解のための最初の公開評価データセットである。その結果、多言語モデル、表現不足言語家族、アフリカ、アメリカ、オセアニア、東南アジアの言語が事前学習中に見つからない言語は、トピック分類データセット上で最も低いパフォーマンスを持つことが多いことがわかった。
論文参考訳（メタデータ） (2023-09-14T05:56:49Z)
The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文参考訳（メタデータ） (2023-08-31T17:43:08Z)
Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10～40倍増やす。主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文参考訳（メタデータ） (2023-05-22T22:09:41Z)
Taxi1500: A Multilingual Dataset for Text Classification in 1500 Languages [40.01333053375582]
我々は、多数の言語を含むテキスト分類データセットを作成することを目指している。我々は、このようなデータセットを構築するために聖書の平行翻訳を利用する。データの英語側をアノテートし、アライメントされた節を通してラベルを他の言語に投影することにより、1500以上の言語に対してテキスト分類データセットを生成する。
論文参考訳（メタデータ） (2023-05-15T09:43:32Z)
Bloom Library: Multimodal Datasets in 300+ Languages for a Variety of Downstream Tasks [0.007696728525672149]
Bloom Libraryデータセットの最初のリリースは、32の言語ファミリーにわたる363の言語をカバーしている。これらファースト・オブ・ザ・キンドのベースラインのいくつかは、高リソース言語の最先端のパフォーマンスに匹敵するものである。
論文参考訳（メタデータ） (2022-10-26T13:45:14Z)
ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文参考訳（メタデータ） (2022-09-06T22:48:29Z)
Crossmodal-3600: A Massively Multilingual Multimodal Evaluation Dataset [25.651902931992176]
提案するCrossmodal-3600データセット(略してXM3600)は,36言語で人為的な参照キャプションを付加した,地理的に多様な3600画像の集合である。画像は世界中から選ばれ、36言語が話されている地域をカバーし、すべての言語でスタイルの整合性を達成するキャプションで注釈付けされた。我々は,XM3600をゴールデンレファレンスとして自動測定に用いた場合,人間の評価と優れた相関関係を示す。
論文参考訳（メタデータ） (2022-05-25T06:30:19Z)
Learning to Scale Multilingual Representations for Vision-Language Tasks [51.27839182889422]
SMALRの有効性は、これまでビジョン言語タスクでサポートされた2倍以上の10の多言語で実証されている。単語の埋め込み手法と比較して,訓練パラメータの1/5以下で,複数言語による画像文検索と先行作業の3～4%の性能評価を行った。
論文参考訳（メタデータ） (2020-04-09T01:03:44Z)
Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文参考訳（メタデータ） (2020-03-10T17:17:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。