論文の概要: What Is Missing in Multilingual Visual Reasoning and How to Fix It
- arxiv url: http://arxiv.org/abs/2403.01404v1
- Date: Sun, 3 Mar 2024 05:45:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 21:35:27.388643
- Title: What Is Missing in Multilingual Visual Reasoning and How to Fix It
- Title(参考訳): 多言語視覚推論に欠けているものとその修正方法
- Authors: Yueqi Song, Simran Khanuja, Graham Neubig
- Abstract要約: 視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
- 参考スコア(独自算出の注目度): 64.47951359580556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: NLP models today strive for supporting multiple languages and modalities,
improving accessibility for diverse users. In this paper, we evaluate their
multilingual, multimodal capabilities by testing on a visual reasoning task. We
observe that proprietary systems like GPT-4V obtain the best performance on
this task now, but open models lag in comparison. Surprisingly, GPT-4V exhibits
similar performance between English and other languages, indicating the
potential for equitable system development across languages. Our analysis on
model failures reveals three key aspects that make this task challenging:
multilinguality, complex reasoning, and multimodality. To address these
challenges, we propose three targeted interventions including a translate-test
approach to tackle multilinguality, a visual programming approach to break down
complex reasoning, and a novel method that leverages image captioning to
address multimodality. Our interventions achieve the best open performance on
this task in a zero-shot setting, boosting open model LLaVA by 13.4%, while
also minorly improving GPT-4V's performance.
- Abstract(参考訳): 現在、NLPモデルは複数の言語とモダリティをサポートし、多様なユーザのアクセシビリティを改善しようとしている。
本稿では,視覚的推論タスクのテストにより,多言語・多モーダル機能の評価を行う。
GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。
驚くべきことに、gpt-4vは英語と他の言語で同様の性能を示しており、言語間の同等なシステム開発の可能性を示している。
モデル失敗に関する我々の分析では、このタスクを難しくする3つの重要な側面が明らかになっている。
これらの課題に対処するために,多言語性に取り組むための翻訳-テストアプローチ,複雑な推論を分解するビジュアルプログラミングアプローチ,多言語性に対処するために画像キャプションを利用する新しい方法の3つを提案する。
我々の介入は、ゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させ、GPT-4Vの性能も若干改善した。
関連論文リスト
- SandboxAQ's submission to MRL 2024 Shared Task on Multi-lingual Multi-task Information Retrieval [1.2629889435114405]
本稿では,5つの言語における質問応答 (QA) と名前付きエンティティ認識 (NER) の問題について検討する。
ゼロショット,チェーンオブ思考推論,翻訳技術など,さまざまなプロンプト手法を用いた5つの大規模言語モデルを検証した。
その結果、いくつかのモデルが他のモデルより一貫して優れているが、その効果はタスクや言語によって大きく異なることがわかった。
論文 参考訳(メタデータ) (2024-10-28T20:15:45Z) - Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。
Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。
非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文 参考訳(メタデータ) (2024-10-21T00:59:47Z) - M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。
ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。
より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文 参考訳(メタデータ) (2024-07-04T09:55:04Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。
6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-05-13T14:41:05Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。
確立された英語GQAデータセットを7言語に拡張する。
本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-09-13T15:58:21Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。