論文の概要: Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models
- arxiv url: http://arxiv.org/abs/2406.15359v1
- Date: Fri, 29 Mar 2024 10:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:21:03.989069
- Title: Constructing Multilingual Visual-Text Datasets Revealing Visual Multilingual Ability of Vision Language Models
- Title(参考訳): 視覚言語モデルの視覚的多言語能力を考慮した多言語視覚テキストデータセットの構築
- Authors: Jesse Atuhurra, Iqra Ali, Tatsuya Hiraoka, Hidetaka Kamigaito, Tomoya Iwakura, Taro Watanabe,
- Abstract要約: 9つの視覚・言語(VL)タスクを導入し、4つの言語(英語、日本語、スワヒリ語、ウルドゥー語)で多言語視覚テキストデータセットを構築した。
我々の研究はスワヒリ語とウルドゥー語でこのような分析を行った最初のものである。また、VL分析におけるテクストレーションを導入し、評価において重要な役割を担った。
- 参考スコア(独自算出の注目度): 25.088717058818528
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have increased interest in vision language models (VLMs), which process image-text pairs as input. Studies investigating the visual understanding ability of VLMs have been proposed, but such studies are still preliminary because existing datasets do not permit a comprehensive evaluation of the fine-grained visual linguistic abilities of VLMs across multiple languages. To further explore the strengths of VLMs, such as GPT-4V \cite{openai2023GPT4}, we developed new datasets for the systematic and qualitative analysis of VLMs. Our contribution is four-fold: 1) we introduced nine vision-and-language (VL) tasks (including object recognition, image-text matching, and more) and constructed multilingual visual-text datasets in four languages: English, Japanese, Swahili, and Urdu through utilizing templates containing \textit{questions} and prompting GPT4-V to generate the \textit{answers} and the \textit{rationales}, 2) introduced a new VL task named \textit{unrelatedness}, 3) introduced rationales to enable human understanding of the VLM reasoning process, and 4) employed human evaluation to measure the suitability of proposed datasets for VL tasks. We show that VLMs can be fine-tuned on our datasets. Our work is the first to conduct such analyses in Swahili and Urdu. Also, it introduces \textit{rationales} in VL analysis, which played a vital role in the evaluation.
- Abstract(参考訳): 大型言語モデル (LLM) は視覚言語モデル (VLM) への関心が高まり、画像とテキストのペアを入力として処理するようになった。
VLMの視覚的理解能力に関する研究が提案されているが、既存のデータセットでは複数の言語にまたがるVLMの詳細な視覚的言語能力の包括的評価ができないため、まだ予備的な研究である。
GPT-4V \cite{openai2023GPT4} のようなVLMの強みをさらに探求するため,VLMの系統的および定性的分析のための新しいデータセットを開発した。
私たちの貢献は4倍です。
1)9つの視覚・言語(VL)タスク(オブジェクト認識,画像テキストマッチングなど)を導入し,<textit{questions} を含むテンプレートを利用して英語,日本語,スワヒリ語,ウルドゥー語の多言語視覚テキストデータセットを構築し,GPT4-V に \textit{answers} と \textit{rationales} を生成するように促した。
2) 新しいVLタスクであるtextit{unrelatedness}を導入した。
3) VLM推論プロセスの人間的理解を可能にする合理性を導入し,
4) VLタスクに対する提案したデータセットの適合性を評価するために人的評価を用いた。
VLMはデータセット上で微調整可能であることを示す。
我々の研究はスワヒリとウルドゥーでこのような分析を行った最初のものである。
また、評価において重要な役割を担ったVL分析に「textit{rationales}」を導入している。
関連論文リスト
- CVLUE: A New Benchmark Dataset for Chinese Vision-Language Understanding Evaluation [49.41531871253317]
我々は、新しい中国語ビジョン言語理解評価ベンチマークデータセットを提案する。
オブジェクトカテゴリとイメージの選択は、完全に中国のネイティブスピーカーによって駆動される。
中国文化関連VLデータセットの微調整により,VLMの中国文化理解が効果的に向上することが確認された。
論文 参考訳(メタデータ) (2024-07-01T08:35:37Z) - VisEval: A Benchmark for Data Visualization in the Era of Large Language Models [12.077276008688065]
事前訓練された大規模言語モデル(LLM)の最近の進歩は、自然言語から可視化を生成するための新たな道を開いた。
本稿では,新しいNL2VISベンチマークであるVisEvalを提案する。
このデータセットには、146のデータベースをカバーする2,524の代表的なクエリが含まれており、正確にラベル付けされた基底真理とペアリングされている。
論文 参考訳(メタデータ) (2024-07-01T05:35:30Z) - What Are We Measuring When We Evaluate Large Vision-Language Models? An Analysis of Latent Factors and Biases [87.65903426052155]
データから潜在視覚言語スキルの発見を目的とした大規模な移動学習実験を行った。
生成タスクが長さバイアスに悩まされることを示し、ベンチマークは出力長の異なるタスクのバランスをとるべきであることを示唆する。
我々は新しいデータセットOLIVEを提示し、そこでユーザーの指示をシミュレーションし、テストしたすべてのデータセットと異なる課題を提示します。
論文 参考訳(メタデータ) (2024-04-03T02:40:35Z) - Prompt4Vis: Prompting Large Language Models with Example Mining and
Schema Filtering for Tabular Data Visualization [13.425454489560376]
本稿では,自然言語からデータビジュアライゼーションクエリを生成するフレームワークであるPrompt4Visを紹介する。
データビジュアライゼーションクエリを生成するためのテキスト・ツー・ビジュアリーに、インコンテキスト・ラーニングが導入される。
Prompt4Visは最先端(SOTA)のRGVisNetを約35.9%、開発とテストセットで71.3%上回っている。
論文 参考訳(メタデータ) (2024-01-29T10:23:47Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Vision-Language Models for Vision Tasks: A Survey [62.543250338410836]
視覚言語モデル(VLM)は、Webスケールの画像テキストペアからリッチな視覚言語相関を学習する。
本稿では,視覚認知タスクにおける視覚言語モデルの体系的レビューを行う。
論文 参考訳(メタデータ) (2023-04-03T02:17:05Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。