論文の概要: MUST-VQA: MUltilingual Scene-text VQA
- arxiv url: http://arxiv.org/abs/2209.06730v1
- Date: Wed, 14 Sep 2022 15:37:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:38:11.745307
- Title: MUST-VQA: MUltilingual Scene-text VQA
- Title(参考訳): must-vqa: 多言語シーン-テキストvqa
- Authors: Emanuele Vivoli, Ali Furkan Biten, Andres Mafla, Dimosthenis Karatzas,
Lluis Gomez
- Abstract要約: STVQA(Scene Text Visual Question Answering)の課題について考察する。
STVQAタスクに多言語モデルを適用することの有効性を示す。
- 参考スコア(独自算出の注目度): 7.687215328455748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a framework for Multilingual Scene Text Visual
Question Answering that deals with new languages in a zero-shot fashion.
Specifically, we consider the task of Scene Text Visual Question Answering
(STVQA) in which the question can be asked in different languages and it is not
necessarily aligned to the scene text language. Thus, we first introduce a
natural step towards a more generalized version of STVQA: MUST-VQA. Accounting
for this, we discuss two evaluation scenarios in the constrained setting,
namely IID and zero-shot and we demonstrate that the models can perform on a
par on a zero-shot setting. We further provide extensive experimentation and
show the effectiveness of adapting multilingual language models into STVQA
tasks.
- Abstract(参考訳): 本稿では,ゼロショット方式で新しい言語を扱う多言語シーンテキストビジュアル質問応答のためのフレームワークを提案する。
具体的には、異なる言語で質問できるシーンテキストの視覚的質問応答(stvqa)のタスクについて検討し、シーンテキスト言語と必ずしも一致しないことを示す。
そこで我々はまず,より一般化されたSTVQA:MUST-VQAに向けた自然なステップを紹介する。
そこで本研究では,制約設定における2つの評価シナリオ,すなわち iid と 0-shot について検討し,モデルが 0-shot 設定で1対1で実行可能であることを示す。
さらに,多言語言語モデルをstvqaタスクに適応させる効果を示す実験を行った。
関連論文リスト
- MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Zero-shot Translation of Attention Patterns in VQA Models to Natural
Language [65.94419474119162]
ZS-A2Tは、トレーニングを必要とせずに、与えられたモデルのトランスフォーマーアテンションを自然言語に変換するフレームワークである。
我々はこれを視覚質問回答(VQA)の文脈で考える。
私たちのフレームワークはトレーニングを一切必要とせず、異なるガイドソースをドロップインで置き換えることができます。
論文 参考訳(メタデータ) (2023-11-08T22:18:53Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Applying Multilingual Models to Question Answering (QA) [0.0]
本研究では,英語,フィンランド語,日本語の3言語を対象とした質問応答課題(QA)に基づいて,単言語および多言語言語モデルの性能について検討する。
我々は,(1)質問が応答可能かどうかを判断するタスクのモデルを開発し,(2)IOBタグを用いたコンテキスト内の回答テキストを識別する。
論文 参考訳(メタデータ) (2022-12-04T21:58:33Z) - MaXM: Towards Multilingual Visual Question Answering [28.268881608141303]
我々は,データとモデリングの両面で,多言語視覚質問応答(mVQA)に対するスケーラブルなソリューションを提案する。
まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。
次に,Crossmodal-3600データセットの多言語キャプションに適用し,テスト専用VQAベンチマークであるMaXMを作成するための効率的なアノテーションプロトコルを開発する。
論文 参考訳(メタデータ) (2022-09-12T16:53:37Z) - Delving Deeper into Cross-lingual Visual Question Answering [115.16614806717341]
標準学習装置に簡単な修正を加えることで、モノリンガル英語のパフォーマンスへの移行ギャップを大幅に減らすことができることを示す。
多言語マルチモーダル変換器の多言語間VQAを多言語間VQAで解析する。
論文 参考訳(メタデータ) (2022-02-15T18:22:18Z) - LaTr: Layout-Aware Transformer for Scene-Text VQA [8.390314291424263]
STVQA(Scene Text Visual Question Answering)のための新しいアーキテクチャを提案する。
スキャンした文書にこの事前学習方式を適用することは、自然画像を使用するよりも、ある程度の利点があることを示す。
既存の手法と比較して,本手法は語彙なし復号化を行い,トレーニング語彙をはるかに超越した一般化を行う。
論文 参考訳(メタデータ) (2021-12-23T12:41:26Z) - UC2: Universal Cross-lingual Cross-modal Vision-and-Language
Pre-training [52.852163987208826]
UC2は、言語間クロスモーダル表現学習のための最初の機械翻訳拡張フレームワークである。
Masked Region-token Modeling (MRTM) と Visual Translation Language Modeling (VTLM) の2つの新しいプリトレーニングタスクを提案する。
提案手法は,英語タスクにおける単言語学習モデルと同等の性能を維持しつつ,多種多様な非英語ベンチマークで新たな最先端を実現する。
論文 参考訳(メタデータ) (2021-04-01T08:30:53Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。