論文の概要: Visually Grounded Reasoning across Languages and Cultures
- arxiv url: http://arxiv.org/abs/2109.13238v1
- Date: Tue, 28 Sep 2021 16:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 15:28:33.255846
- Title: Visually Grounded Reasoning across Languages and Cultures
- Title(参考訳): 言語と文化にまたがる視覚的な推論
- Authors: Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy,
Nigel Collier, Desmond Elliott
- Abstract要約: 我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
- 参考スコア(独自算出の注目度): 27.31020761908739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of widespread vision-and-language datasets and pre-trained
encoders directly adopts, or draws inspiration from, the concepts and images of
ImageNet. While one can hardly overestimate how much this benchmark contributed
to progress in computer vision, it is mostly derived from lexical databases and
image queries in English, resulting in source material with a North American or
Western European bias. Therefore, we devise a new protocol to construct an
ImageNet-style hierarchy representative of more languages and cultures. In
particular, we let the selection of both concepts and images be entirely driven
by native speakers, rather than scraping them automatically. Specifically, we
focus on a typologically diverse set of languages, namely, Indonesian, Mandarin
Chinese, Swahili, Tamil, and Turkish. On top of the concepts and images
obtained through this new protocol, we create a multilingual dataset for
{M}ulticultur{a}l {R}easoning over {V}ision and {L}anguage (MaRVL) by eliciting
statements from native speaker annotators about pairs of images. The task
consists of discriminating whether each grounded statement is true or false. We
establish a series of baselines using state-of-the-art models and find that
their cross-lingual transfer performance lags dramatically behind supervised
performance in English. These results invite us to reassess the robustness and
accuracy of current state-of-the-art models beyond a narrow domain, but also
open up new exciting challenges for the development of truly multilingual and
multicultural systems.
- Abstract(参考訳): 広く使われている視覚・言語データセットと事前訓練されたエンコーダの設計は、ImageNetの概念やイメージを直接採用するか、あるいはインスピレーションを引き出す。
このベンチマークがコンピュータビジョンの進歩にどの程度貢献したかは過大評価できないが、主に英語の語彙データベースや画像クエリから派生したもので、北米や西欧の偏見を持つ資料となっている。
そこで我々は,より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを考案した。
特に、概念とイメージの選択は、自動的にスクラップするのではなく、ネイティブスピーカーによって完全に駆動されます。
具体的には,インドネシア語,中国語,スワヒリ語,タミル語,トルコ語の類型的に多様な言語群に焦点を当てる。
この新プロトコルを用いて得られた概念と画像に基づいて,ネイティブ話者アノテータから画像のペアに関する文を抽出することにより, {M}ulticultur{a}l {R}easoning over {V}ision と {L}anguage (MARVL) の多言語データセットを作成する。
このタスクは、それぞれの根拠のある文が真か偽かを識別する。
我々は,最先端モデルを用いた一連のベースラインを確立し,それらの言語間伝達性能が英語における教師付き性能よりも劇的に遅れていることを見いだした。
これらの結果は、狭い領域を超えた現在の最先端モデルの堅牢性と正確性を再評価すると同時に、真に多言語多文化システムを開発するための新たなエキサイティングな課題を提起します。
関連論文リスト
- Multilingual Diversity Improves Vision-Language Representations [66.41030381363244]
このデータセットの事前トレーニングは、ImageNet上で英語のみまたは英語が支配するデータセットを使用してパフォーマンスが向上する。
GeoDEのような地理的に多様なタスクでは、アフリカから得られる最大の利益とともに、すべての地域における改善も観察します。
論文 参考訳(メタデータ) (2024-05-27T08:08:51Z) - An image speaks a thousand words, but can everyone listen? On image transcreation for cultural relevance [53.974497865647336]
われわれは、画像の翻訳を文化的に意味のあるものにするための第一歩を踏み出した。
タスクを行うために、最先端の生成モデルからなる3つのパイプラインを構築します。
我々は,翻訳画像の人間による評価を行い,文化的意義と保存の意味を評価する。
論文 参考訳(メタデータ) (2024-04-01T17:08:50Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language Representations [53.89380284760555]
Babel-ImageNetは,100言語へのイメージネットラベルの部分的翻訳を提供する,多言語ベンチマークである。
我々は,11の公開多言語CLIPモデルをベンチマークで評価し,イングリッシュイメージネットの性能と高ソース言語との差を顕著に示した。
パラメータ効率のよい言語特化学習を行う低リソース言語に対して,多言語CLIPの性能を劇的に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。