Fugu-MT 論文翻訳(概要): What Is Missing in Multilingual Visual Reasoning and How to Fix It

論文の概要: What Is Missing in Multilingual Visual Reasoning and How to Fix It

arxiv url: http://arxiv.org/abs/2403.01404v1
Date: Sun, 3 Mar 2024 05:45:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 21:35:27.388643
Title: What Is Missing in Multilingual Visual Reasoning and How to Fix It
Title（参考訳）: 多言語視覚推論に欠けているものとその修正方法
Authors: Yueqi Song, Simran Khanuja, Graham Neubig
Abstract要約: 視覚的推論タスクを用いてNLPモデルの多言語・多モーダル機能を評価する。 GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。我々の介入はゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させる。
参考スコア（独自算出の注目度）: 64.47951359580556
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: NLP models today strive for supporting multiple languages and modalities, improving accessibility for diverse users. In this paper, we evaluate their multilingual, multimodal capabilities by testing on a visual reasoning task. We observe that proprietary systems like GPT-4V obtain the best performance on this task now, but open models lag in comparison. Surprisingly, GPT-4V exhibits similar performance between English and other languages, indicating the potential for equitable system development across languages. Our analysis on model failures reveals three key aspects that make this task challenging: multilinguality, complex reasoning, and multimodality. To address these challenges, we propose three targeted interventions including a translate-test approach to tackle multilinguality, a visual programming approach to break down complex reasoning, and a novel method that leverages image captioning to address multimodality. Our interventions achieve the best open performance on this task in a zero-shot setting, boosting open model LLaVA by 13.4%, while also minorly improving GPT-4V's performance.
Abstract（参考訳）: 現在、NLPモデルは複数の言語とモダリティをサポートし、多様なユーザのアクセシビリティを改善しようとしている。本稿では,視覚的推論タスクのテストにより,多言語・多モーダル機能の評価を行う。 GPT-4Vのようなプロプライエタリなシステムは、現在このタスクで最高のパフォーマンスを得るが、オープンモデルは比較に遅れている。驚くべきことに、gpt-4vは英語と他の言語で同様の性能を示しており、言語間の同等なシステム開発の可能性を示している。モデル失敗に関する我々の分析では、このタスクを難しくする3つの重要な側面が明らかになっている。これらの課題に対処するために,多言語性に取り組むための翻訳-テストアプローチ,複雑な推論を分解するビジュアルプログラミングアプローチ,多言語性に対処するために画像キャプションを利用する新しい方法の3つを提案する。我々の介入は、ゼロショット設定でこのタスク上で最高のオープンパフォーマンスを実現し、オープンモデルLLaVAを13.4%向上させ、GPT-4Vの性能も若干改善した。

関連論文リスト

Test-Time Code-Switching for Cross-lingual Aspect Sentiment Triplet Extraction [12.269762062755492]
本稿では,バイリンガル学習フェーズと単言語テストタイム予測のギャップを埋めるために,TT-CSW(Test-Time Code-SWitching)フレームワークを提案する。訓練中は、バイリンガルコード切替トレーニングデータに基づいて生成モデルを構築し、バイリンガル入力のためのバイリンガルASTE三重項を生成する。テスト段階では、テスト時間拡張のためにアライメントベースのコードスイッチング技術を使用します。
論文参考訳（メタデータ） (2025-01-24T00:00:51Z)
Centurio: On Drivers of Multilingual Ability of Large Vision-Language Model [66.17354128553244]
多くのLVLM(Large Vision-Language Models)は、主に英語のデータに基づいて訓練されている。異なる言語群に対する学習がいかに異なるかを検討する。私たちはCenturio(100言語LVLM)をトレーニングし、14のタスクと56の言語を対象とした評価で最先端のパフォーマンスを提供する。
論文参考訳（メタデータ） (2025-01-09T10:26:14Z)
SandboxAQ's submission to MRL 2024 Shared Task on Multi-lingual Multi-task Information Retrieval [1.2629889435114405]
本稿では,5つの言語における質問応答 (QA) と名前付きエンティティ認識 (NER) の問題について検討する。ゼロショット,チェーンオブ思考推論,翻訳技術など,さまざまなプロンプト手法を用いた5つの大規模言語モデルを検証した。その結果、いくつかのモデルが他のモデルより一貫して優れているが、その効果はタスクや言語によって大きく異なることがわかった。
論文参考訳（メタデータ） (2024-10-28T20:15:45Z)
Multi-IF: Benchmarking LLMs on Multi-Turn and Multilingual Instructions Following [51.18383180774354]
Multi-IFは,大規模言語モデルの習熟度を多元的および多言語的指示に従って評価するための新しいベンチマークである。 Multi-IF 上での14の最先端 LLM の評価結果から,既存のベンチマークよりもはるかに難しい課題であることが判明した。非ラテン文字(ヒンディー語、ロシア語、中国語)を持つ言語は一般的に高いエラー率を示し、モデルの多言語能力の潜在的な制限を示唆している。
論文参考訳（メタデータ） (2024-10-21T00:59:47Z)
M5 -- A Diverse Benchmark to Assess the Performance of Large Multimodal Models Across Multilingual and Multicultural Vision-Language Tasks [10.677274746850554]
M5は多言語コンテキストにおける様々な視覚・運動タスクのLMMを評価するために設計された最初の総合ベンチマークである。ハイソース言語と低リソース言語のタスクに依存しないパフォーマンスの相違を強調した。より大規模なモデルは、多言語環境では必ずしもより小さなモデルよりも優れているとは限らないことを示す。
論文参考訳（メタデータ） (2024-07-04T09:55:04Z)
Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文参考訳（メタデータ） (2023-11-02T08:37:30Z)
Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text. A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文参考訳（メタデータ） (2023-10-19T06:45:11Z)
RC3: Regularized Contrastive Cross-lingual Cross-modal Pre-training [84.23022072347821]
本稿では,弱整列型ビオテキスト入力の表現近接を制約する正規化言語間ビオテキストコントラスト学習目標を提案する。 6言語にまたがる5つの下流マルチモーダルタスクの実験により,提案手法の有効性が示された。
論文参考訳（メタデータ） (2023-05-13T14:41:05Z)
Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文参考訳（メタデータ） (2021-12-20T16:52:35Z)
xGQA: Cross-Lingual Visual Question Answering [100.35229218735938]
xGQAは視覚的質問応答タスクのための新しい多言語評価ベンチマークである。確立された英語GQAデータセットを7言語に拡張する。本稿では,マルチモーダルトランスフォーマーモデルに適応するアダプタベースの新しいアプローチを提案する。
論文参考訳（メタデータ） (2021-09-13T15:58:21Z)
CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文参考訳（メタデータ） (2020-06-11T13:15:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。