論文の概要: WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model
- arxiv url: http://arxiv.org/abs/2110.14378v1
- Date: Wed, 27 Oct 2021 12:25:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-28 22:36:42.321700
- Title: WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model
- Title(参考訳): WenLan 2.0: マルチモーダルファンデーションモデルによるAIイマジネーションの実現
- Authors: Nanyi Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen,
Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, Hao Sun and Ji-Rong Wen
- Abstract要約: 我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
- 参考スコア(独自算出の注目度): 74.4875156387271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The fundamental goal of artificial intelligence (AI) is to mimic the core
cognitive activities of human including perception, memory, and reasoning.
Although tremendous success has been achieved in various AI research fields
(e.g., computer vision and natural language processing), the majority of
existing works only focus on acquiring single cognitive ability (e.g., image
classification, reading comprehension, or visual commonsense reasoning). To
overcome this limitation and take a solid step to artificial general
intelligence (AGI), we develop a novel foundation model pre-trained with huge
multimodal (visual and textual) data, which is able to be quickly adapted for a
broad class of downstream cognitive tasks. Such a model is fundamentally
different from the multimodal foundation models recently proposed in the
literature that typically make strong semantic correlation assumption and
expect exact alignment between image and text modalities in their pre-training
data, which is often hard to satisfy in practice thus limiting their
generalization abilities. To resolve this issue, we propose to pre-train our
foundation model by self-supervised learning with weak semantic correlation
data crawled from the Internet and show that state-of-the-art results can be
obtained on a wide range of downstream tasks (both single-modal and
cross-modal). Particularly, with novel model-interpretability tools developed
in this work, we demonstrate that strong imagination ability (even with hints
of commonsense) is now possessed by our foundation model. We believe our work
makes a transformative stride towards AGI and will have broad impact on various
AI+ fields (e.g., neuroscience and healthcare).
- Abstract(参考訳): 人工知能(AI)の基本的な目標は、知覚、記憶、推論を含む人間の中核的な認知活動を模倣することである。
様々なai研究分野(コンピュータビジョンや自然言語処理など)で大きな成功を収めているが、既存の作品の大部分は単一の認知能力(画像分類、読み理解、視覚常識推論など)を獲得することだけに焦点を当てている。
この制限を克服し、人工知能(AGI)への確かな一歩を踏み出すため、大規模なマルチモーダル(視覚的・テキスト的)データで事前訓練された新しい基礎モデルを開発し、幅広い下流認知タスクに迅速に適応することができる。
このようなモデルは、一般的に強い意味的相関関係を仮定し、事前学習データにおける画像とテキストのモダリティの正確なアライメントを期待する文献で最近提案されたマルチモーダル基礎モデルと根本的に異なる。
この問題を解決するために,インターネットから収集した弱い意味的相関データを用いた自己教師型学習による基礎モデルの事前学習を提案し,下流タスク(単一モーダルとクロスモーダルの両方)で最先端の結果が得られることを示す。
特に,本研究で開発された新しいモデル解釈ツールを用いて,強い想像力(常識のヒントを伴っても)が基礎モデルによって所有されていることを実証する。
私たちは、我々の研究がAGIに変革をもたらすと信じており、様々なAI+分野(神経科学や医療など)に幅広い影響を与えるだろうと考えています。
関連論文リスト
- Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。
本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文 参考訳(メタデータ) (2024-02-28T16:09:56Z) - An Interactive Agent Foundation Model [50.50659114031731]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - Imaginations of WALL-E : Reconstructing Experiences with an
Imagination-Inspired Module for Advanced AI Systems [2.452498006404167]
本システムは,テキスト入力と他のモダリティのギャップを埋めるイマジネーションに着想を得たモジュールを備える。
これは、人間の解釈と異なるが、等しく有効であるかもしれない概念の独特な解釈につながる。
この研究は、想像力に触発されたAIシステムの開発における重要な進歩を表している。
論文 参考訳(メタデータ) (2023-08-20T20:10:55Z) - Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。
タスクをビジョンから言語領域に変換することに集中しています。
言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文 参考訳(メタデータ) (2023-03-07T17:52:46Z) - Multi-Modal Experience Inspired AI Creation [15.780729577587673]
シーケンシャルなマルチモーダル情報に基づいてテキストを生成する方法について検討する。
まず,マルチモーダルアテンションネットワークを備えたマルチチャネルシーケンス・ツー・シーケンスアーキテクチャを設計する。
次に、逐次入力に適したカリキュラム負サンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-09-02T11:50:41Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - Syntactic and Semantic-driven Learning for Open Information Extraction [42.65591370263333]
正確で高カバレッジのニューラルオープンIEシステムを構築する上で最大のボトルネックの1つは、大きなラベル付きコーパスの必要性である。
そこで本研究では,人間に反するデータを使わずにオープンなIEモデルを学習するシンタクティクスとセマンティック駆動型学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-05T02:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。