論文の概要: VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2410.13666v1
- Date: Thu, 17 Oct 2024 15:27:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:21:48.209428
- Title: VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks
- Title(参考訳): VL-GLUE:VL-Linguistic Reasoning Tasksの基礎的・複雑化のスイート
- Authors: Shailaja Keyur Sampat, Mutsumi Nakamura, Shankar Kailas, Kartik Aggarwal, Mandy Zhou, Yezhou Yang, Chitta Baral,
- Abstract要約: VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
- 参考スコア(独自算出の注目度): 48.67062958311173
- License:
- Abstract: Deriving inference from heterogeneous inputs (such as images, text, and audio) is an important skill for humans to perform day-to-day tasks. A similar ability is desirable for the development of advanced Artificial Intelligence (AI) systems. While state-of-the-art models are rapidly closing the gap with human-level performance on diverse computer vision and NLP tasks separately, they struggle to solve tasks that require joint reasoning over visual and textual modalities. Inspired by GLUE (Wang et. al., 2018)- a multitask benchmark for natural language understanding, we propose VL-GLUE in this paper. VL-GLUE consists of over 100k samples spanned across seven different tasks, which at their core require visuo-linguistic reasoning. Moreover, our benchmark comprises of diverse image types (from synthetically rendered figures, and day-to-day scenes to charts and complex diagrams) and includes a broad variety of domain-specific text (from cooking, politics, and sports to high-school curricula), demonstrating the need for multi-modal understanding in the real-world. We show that this benchmark is quite challenging for existing large-scale vision-language models and encourage development of systems that possess robust visuo-linguistic reasoning capabilities.
- Abstract(参考訳): 不均一な入力(画像、テキスト、音声など)からの推論は、人間が日々のタスクを実行する上で重要なスキルである。
高度な人工知能(AI)システムの開発には、同様の能力が望ましい。
最先端のモデルは、多様なコンピュータビジョンとNLPタスクの人間レベルのパフォーマンスとのギャップを急速に埋めつつあるが、視覚的およびテキスト的モダリティに対する共同推論を必要とするタスクを解決するのに苦労している。
自然言語理解のためのマルチタスクベンチマークであるGLUE (Wang et al , 2018) に触発された本論文では, VL-GLUEを提案する。
VL-GLUEは7つのタスクにまたがる100万以上のサンプルで構成されており、その中核はビジュオ言語的推論を必要とする。
さらに,本ベンチマークでは,画像の種類(合成図形,日々のシーン,チャート,複雑な図形など)や,料理,政治,スポーツ,高校キュリキュラなど,多種多様なドメイン特化テキスト(料理,政治,スポーツ,高校キュリキュラなど)で構成され,現実世界におけるマルチモーダル理解の必要性を実証する。
このベンチマークは、既存の大規模ヴィジュアル言語モデルにとって非常に難しいことを示し、ロバストなビジュオ言語推論能力を持つシステムの開発を奨励している。
関連論文リスト
- Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2024-10-21T16:30:29Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。
汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。
VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Lost in Translation: When GPT-4V(ision) Can't See Eye to Eye with Text.
A Vision-Language-Consistency Analysis of VLLMs and Beyond [7.760124498553333]
視覚言語モデルが連続的・独立的に視覚と言語タスクを実行するかを検討する。
マルチモーダル設定において、異なるモーダル間の能力格差を定量化する体系的枠組みを導入する。
本稿では,視覚関連課題に挑戦するタスクのパフォーマンスを効果的に向上する手法である"Vision Description Prompting"を紹介する。
論文 参考訳(メタデータ) (2023-10-19T06:45:11Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks [9.462808515258464]
本稿では,汎用物体検出装置から得られた物体属性を利用する注意機構であるLingguistically-Aware Attention (LAT)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
我々は,VQA,VQA,画像キャプションという3つの視覚言語(V-L)タスクにおけるLATの有効性を適用し,実演する。
論文 参考訳(メタデータ) (2020-08-18T16:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。