論文の概要: WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model
- arxiv url: http://arxiv.org/abs/2110.14378v1
- Date: Wed, 27 Oct 2021 12:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 22:36:42.321700
- Title: WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model
- Title(参考訳): WenLan 2.0: マルチモーダルファンデーションモデルによるAIイマジネーションの実現
- Authors: Nanyi Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen,
Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, Hao Sun and Ji-Rong Wen
- Abstract要約: 我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
- 参考スコア(独自算出の注目度): 74.4875156387271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fundamental goal of artificial intelligence (AI) is to mimic the core
cognitive activities of human including perception, memory, and reasoning.
Although tremendous success has been achieved in various AI research fields
(e.g., computer vision and natural language processing), the majority of
existing works only focus on acquiring single cognitive ability (e.g., image
classification, reading comprehension, or visual commonsense reasoning). To
overcome this limitation and take a solid step to artificial general
intelligence (AGI), we develop a novel foundation model pre-trained with huge
multimodal (visual and textual) data, which is able to be quickly adapted for a
broad class of downstream cognitive tasks. Such a model is fundamentally
different from the multimodal foundation models recently proposed in the
literature that typically make strong semantic correlation assumption and
expect exact alignment between image and text modalities in their pre-training
data, which is often hard to satisfy in practice thus limiting their
generalization abilities. To resolve this issue, we propose to pre-train our
foundation model by self-supervised learning with weak semantic correlation
data crawled from the Internet and show that state-of-the-art results can be
obtained on a wide range of downstream tasks (both single-modal and
cross-modal). Particularly, with novel model-interpretability tools developed
in this work, we demonstrate that strong imagination ability (even with hints
of commonsense) is now possessed by our foundation model. We believe our work
makes a transformative stride towards AGI and will have broad impact on various
AI+ fields (e.g., neuroscience and healthcare).
- Abstract(参考訳): 人工知能(AI)の基本的な目標は、知覚、記憶、推論を含む人間の中核的な認知活動を模倣することである。
様々なai研究分野(コンピュータビジョンや自然言語処理など)で大きな成功を収めているが、既存の作品の大部分は単一の認知能力(画像分類、読み理解、視覚常識推論など)を獲得することだけに焦点を当てている。
この制限を克服し、人工知能(AGI)への確かな一歩を踏み出すため、大規模なマルチモーダル(視覚的・テキスト的)データで事前訓練された新しい基礎モデルを開発し、幅広い下流認知タスクに迅速に適応することができる。
このようなモデルは、一般的に強い意味的相関関係を仮定し、事前学習データにおける画像とテキストのモダリティの正確なアライメントを期待する文献で最近提案されたマルチモーダル基礎モデルと根本的に異なる。
この問題を解決するために,インターネットから収集した弱い意味的相関データを用いた自己教師型学習による基礎モデルの事前学習を提案し,下流タスク(単一モーダルとクロスモーダルの両方)で最先端の結果が得られることを示す。
特に,本研究で開発された新しいモデル解釈ツールを用いて,強い想像力(常識のヒントを伴っても)が基礎モデルによって所有されていることを実証する。
私たちは、我々の研究がAGIに変革をもたらすと信じており、様々なAI+分野(神経科学や医療など)に幅広い影響を与えるだろうと考えています。
関連論文リスト
- ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。
ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。
我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文 参考訳(メタデータ) (2024-08-12T10:15:13Z) - Big Cooperative Learning [7.958840888809145]
基礎モデルのトレーニングは,大きな協調学習の一形態として解釈できることを示す。
本稿では,多目的データサンプリング機能を備えた新しい逆学習基盤モデルであるBigLearn-GANを提案する。
論文 参考訳(メタデータ) (2024-07-31T03:59:14Z) - A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。
汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。
VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文 参考訳(メタデータ) (2024-05-23T01:43:54Z) - Data Science Principles for Interpretable and Explainable AI [0.7581664835990121]
解釈可能でインタラクティブな機械学習は、複雑なモデルをより透明で制御しやすいものにすることを目的としている。
本論は, この分野における文献の発達から重要な原則を合成するものである。
論文 参考訳(メタデータ) (2024-05-17T05:32:27Z) - Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - Imaginations of WALL-E : Reconstructing Experiences with an
Imagination-Inspired Module for Advanced AI Systems [2.452498006404167]
本システムは,テキスト入力と他のモダリティのギャップを埋めるイマジネーションに着想を得たモジュールを備える。
これは、人間の解釈と異なるが、等しく有効であるかもしれない概念の独特な解釈につながる。
この研究は、想像力に触発されたAIシステムの開発における重要な進歩を表している。
論文 参考訳(メタデータ) (2023-08-20T20:10:55Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。