論文の概要: Visually Grounded Reasoning across Languages and Cultures
- arxiv url: http://arxiv.org/abs/2109.13238v1
- Date: Tue, 28 Sep 2021 16:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 15:28:33.255846
- Title: Visually Grounded Reasoning across Languages and Cultures
- Title(参考訳): 言語と文化にまたがる視覚的な推論
- Authors: Fangyu Liu, Emanuele Bugliarello, Edoardo Maria Ponti, Siva Reddy,
Nigel Collier, Desmond Elliott
- Abstract要約: 我々は、より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを開発する。
我々は、インドネシア語、中国語、スワヒリ語、タミル語、トルコ語など、類型的に多様な言語群に焦点を当てている。
画像のペアについて,ネイティブ話者アノテータから文を抽出することにより,多言語による視覚・言語上の多言語推論(MARVL)データセットを作成する。
- 参考スコア(独自算出の注目度): 27.31020761908739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The design of widespread vision-and-language datasets and pre-trained
encoders directly adopts, or draws inspiration from, the concepts and images of
ImageNet. While one can hardly overestimate how much this benchmark contributed
to progress in computer vision, it is mostly derived from lexical databases and
image queries in English, resulting in source material with a North American or
Western European bias. Therefore, we devise a new protocol to construct an
ImageNet-style hierarchy representative of more languages and cultures. In
particular, we let the selection of both concepts and images be entirely driven
by native speakers, rather than scraping them automatically. Specifically, we
focus on a typologically diverse set of languages, namely, Indonesian, Mandarin
Chinese, Swahili, Tamil, and Turkish. On top of the concepts and images
obtained through this new protocol, we create a multilingual dataset for
{M}ulticultur{a}l {R}easoning over {V}ision and {L}anguage (MaRVL) by eliciting
statements from native speaker annotators about pairs of images. The task
consists of discriminating whether each grounded statement is true or false. We
establish a series of baselines using state-of-the-art models and find that
their cross-lingual transfer performance lags dramatically behind supervised
performance in English. These results invite us to reassess the robustness and
accuracy of current state-of-the-art models beyond a narrow domain, but also
open up new exciting challenges for the development of truly multilingual and
multicultural systems.
- Abstract(参考訳): 広く使われている視覚・言語データセットと事前訓練されたエンコーダの設計は、ImageNetの概念やイメージを直接採用するか、あるいはインスピレーションを引き出す。
このベンチマークがコンピュータビジョンの進歩にどの程度貢献したかは過大評価できないが、主に英語の語彙データベースや画像クエリから派生したもので、北米や西欧の偏見を持つ資料となっている。
そこで我々は,より多くの言語や文化を表すImageNetスタイルの階層を構築するための新しいプロトコルを考案した。
特に、概念とイメージの選択は、自動的にスクラップするのではなく、ネイティブスピーカーによって完全に駆動されます。
具体的には,インドネシア語,中国語,スワヒリ語,タミル語,トルコ語の類型的に多様な言語群に焦点を当てる。
この新プロトコルを用いて得られた概念と画像に基づいて,ネイティブ話者アノテータから画像のペアに関する文を抽出することにより, {M}ulticultur{a}l {R}easoning over {V}ision と {L}anguage (MARVL) の多言語データセットを作成する。
このタスクは、それぞれの根拠のある文が真か偽かを識別する。
我々は,最先端モデルを用いた一連のベースラインを確立し,それらの言語間伝達性能が英語における教師付き性能よりも劇的に遅れていることを見いだした。
これらの結果は、狭い領域を超えた現在の最先端モデルの堅牢性と正確性を再評価すると同時に、真に多言語多文化システムを開発するための新たなエキサイティングな課題を提起します。
関連論文リスト
- Kosmos-G: Generating Images in Context with Multimodal Large Language
Models [124.00253348311792]
本稿では,マルチモーダル大規模言語モデル(MLLM)の高度な認識能力を利用したKosmos-Gを提案する。
提案手法は,テキストモダリティをアンカーとして用いたMLLMとCLIPの出力空間を整列し,キュレートされたデータに対して合成指導を行う。
Kosmos-Gは、ゼロショットマルチエンタリティの主観的生成のユニークな能力を実証している。
論文 参考訳(メタデータ) (2023-10-04T17:28:44Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across
Languages [77.81064876413055]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - Babel-ImageNet: Massively Multilingual Evaluation of Vision-and-Language
Representations [83.96551676836776]
Babel-ImageNetは、92の言語に1000のImageNetラベルを部分的に翻訳する、非常に多言語なベンチマークである。
92のBabel-ImageNet言語に対して,ゼロショット画像分類 (ZS-IC) を用いた8種類の多言語CLIPモデルの評価を行った。
Babel-ImageNetにおけるモデルZS-ICの性能は,画像テキスト検索の性能と高い相関性を示す。
論文 参考訳(メタデータ) (2023-06-14T17:53:06Z) - Multilingual Conceptual Coverage in Text-to-Image Models [98.80343331645626]
コンセプチュアル・カバー・アクロス言語(Conceptual Coverage Across Languages, CoCo-CroLa)とは、任意の生成的テキスト・画像システムにおいて、有形名詞の観点から学習言語に多言語対応を提供する程度をベンチマークする手法である。
各モデルについて、ソースコード中の一連の有形名詞に生成される画像の集団と、対象言語に翻訳された各名詞に生成された画像の集団とを比較することにより、ソース言語に対して与えられた対象言語の「概念的カバレッジ」を評価することができる。
論文 参考訳(メタデータ) (2023-06-02T17:59:09Z) - Meta-Learning and Self-Supervised Pretraining for Real World Image
Translation [5.469808405577674]
我々は,新しいマルチタスク・マルチショット画像生成ベンチマークを定式化するために,画像から画像への変換問題について検討する。
軽微な問題に対する基本点をいくつか提示し、異なるアプローチ間のトレードオフについて議論する。
論文 参考訳(メタデータ) (2021-12-22T14:48:22Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。