Fugu-MT 論文翻訳(概要): WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model

論文の概要: WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model

arxiv url: http://arxiv.org/abs/2110.14378v1
Date: Wed, 27 Oct 2021 12:25:21 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-28 22:36:42.321700
Title: WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model
Title（参考訳）: WenLan 2.0: マルチモーダルファンデーションモデルによるAIイマジネーションの実現
Authors: Nanyi Fei, Zhiwu Lu, Yizhao Gao, Guoxing Yang, Yuqi Huo, Jingyuan Wen, Haoyu Lu, Ruihua Song, Xin Gao, Tao Xiang, Hao Sun and Ji-Rong Wen
Abstract要約: 我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
参考スコア（独自算出の注目度）: 74.4875156387271
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The fundamental goal of artificial intelligence (AI) is to mimic the core cognitive activities of human including perception, memory, and reasoning. Although tremendous success has been achieved in various AI research fields (e.g., computer vision and natural language processing), the majority of existing works only focus on acquiring single cognitive ability (e.g., image classification, reading comprehension, or visual commonsense reasoning). To overcome this limitation and take a solid step to artificial general intelligence (AGI), we develop a novel foundation model pre-trained with huge multimodal (visual and textual) data, which is able to be quickly adapted for a broad class of downstream cognitive tasks. Such a model is fundamentally different from the multimodal foundation models recently proposed in the literature that typically make strong semantic correlation assumption and expect exact alignment between image and text modalities in their pre-training data, which is often hard to satisfy in practice thus limiting their generalization abilities. To resolve this issue, we propose to pre-train our foundation model by self-supervised learning with weak semantic correlation data crawled from the Internet and show that state-of-the-art results can be obtained on a wide range of downstream tasks (both single-modal and cross-modal). Particularly, with novel model-interpretability tools developed in this work, we demonstrate that strong imagination ability (even with hints of commonsense) is now possessed by our foundation model. We believe our work makes a transformative stride towards AGI and will have broad impact on various AI+ fields (e.g., neuroscience and healthcare).
Abstract（参考訳）: 人工知能(AI)の基本的な目標は、知覚、記憶、推論を含む人間の中核的な認知活動を模倣することである。様々なai研究分野(コンピュータビジョンや自然言語処理など)で大きな成功を収めているが、既存の作品の大部分は単一の認知能力(画像分類、読み理解、視覚常識推論など)を獲得することだけに焦点を当てている。この制限を克服し、人工知能(AGI)への確かな一歩を踏み出すため、大規模なマルチモーダル(視覚的・テキスト的)データで事前訓練された新しい基礎モデルを開発し、幅広い下流認知タスクに迅速に適応することができる。このようなモデルは、一般的に強い意味的相関関係を仮定し、事前学習データにおける画像とテキストのモダリティの正確なアライメントを期待する文献で最近提案されたマルチモーダル基礎モデルと根本的に異なる。この問題を解決するために,インターネットから収集した弱い意味的相関データを用いた自己教師型学習による基礎モデルの事前学習を提案し,下流タスク(単一モーダルとクロスモーダルの両方)で最先端の結果が得られることを示す。特に,本研究で開発された新しいモデル解釈ツールを用いて,強い想像力(常識のヒントを伴っても)が基礎モデルによって所有されていることを実証する。私たちは、我々の研究がAGIに変革をもたらすと信じており、様々なAI+分野(神経科学や医療など)に幅広い影響を与えるだろうと考えています。

関連論文リスト

Video Event Reasoning and Prediction by Fusing World Knowledge from LLMs with Vision Foundation Models [10.1080193179562]
現在の理解モデルは「何」を認識するのに優れているが、因果推論や将来の予測のような高いレベルの認知タスクでは不足している。本稿では,知識駆動型推論コアとして機能するLarge Language Model (LLM)を用いて,視覚の深層認識のための強力なビジョン基礎モデルと融合する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-08T09:43:17Z)
Quantifying Cross-Modality Memorization in Vision-Language Models [86.82366725590508]
モーダリティ記憶のユニークな特徴について検討し,視覚言語モデルを中心とした体系的な研究を行う。以上の結果から,一方のモダリティが他方のモダリティに伝達されることが判明したが,情報源の情報と対象のモダリティの間には大きなギャップがあることがわかった。
論文参考訳（メタデータ） (2025-06-05T16:10:47Z)
The Society of HiveMind: Multi-Agent Optimization of Foundation Model Swarms to Unlock the Potential of Collective Intelligence [6.322831694506287]
複数のAIファンデーションモデル間のインタラクションをオーケストレーションするフレームワークを開発する。このフレームワークは、主に現実世界の知識を必要とするタスクに対して、無視可能なメリットを提供する。一方、我々は、集中的な論理的推論を必要とするタスクの大幅な改善について言及する。
論文参考訳（メタデータ） (2025-03-07T14:45:03Z)
ARPA: A Novel Hybrid Model for Advancing Visual Word Disambiguation Using Large Language Models and Transformers [1.6541870997607049]
変換器の高度な特徴抽出機能を備えた大規模言語モデルの非並列的文脈理解を融合したアーキテクチャであるARPAを提案する。 ARPAの導入は、視覚的単語の曖昧さにおいて重要なマイルストーンであり、魅力的なソリューションを提供する。我々は研究者や実践者たちに、このようなハイブリッドモデルが人工知能の先例のない進歩を後押しする未来を想像して、我々のモデルの能力を探求するよう依頼する。
論文参考訳（メタデータ） (2024-08-12T10:15:13Z)
Big Cooperative Learning [7.958840888809145]
基礎モデルのトレーニングは,大きな協調学習の一形態として解釈できることを示す。本稿では,多目的データサンプリング機能を備えた新しい逆学習基盤モデルであるBigLearn-GANを提案する。
論文参考訳（メタデータ） (2024-07-31T03:59:14Z)
A Survey on Vision-Language-Action Models for Embodied AI [71.16123093739932]
視覚言語アクションモデル(VLA)はロボット学習の基盤となっている。汎用性、デキスタリティ、一般化可能性など、様々な手法が提案されている。 VLAは、長い水平タスクを実行可能なサブタスクに分解できるハイレベルなタスクプランナとして機能する。
論文参考訳（メタデータ） (2024-05-23T01:43:54Z)
Data Science Principles for Interpretable and Explainable AI [0.7581664835990121]
解釈可能でインタラクティブな機械学習は、複雑なモデルをより透明で制御しやすいものにすることを目的としている。本論は, この分野における文献の発達から重要な原則を合成するものである。
論文参考訳（メタデータ） (2024-05-17T05:32:27Z)
Position Paper: Agent AI Towards a Holistic Intelligence [53.35971598180146]
エージェントAI - 大きな基盤モデルをエージェントアクションに統合する具体的システム。本稿では,エージェント・ファウンデーション・モデル(エージェント・ファウンデーション・モデル)を提案する。
論文参考訳（メタデータ） (2024-02-28T16:09:56Z)
An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文参考訳（メタデータ） (2024-02-08T18:58:02Z)
Imaginations of WALL-E : Reconstructing Experiences with an Imagination-Inspired Module for Advanced AI Systems [2.452498006404167]
本システムは,テキスト入力と他のモダリティのギャップを埋めるイマジネーションに着想を得たモジュールを備える。これは、人間の解釈と異なるが、等しく有効であるかもしれない概念の独特な解釈につながる。この研究は、想像力に触発されたAIシステムの開発における重要な進歩を表している。
論文参考訳（メタデータ） (2023-08-20T20:10:55Z)
Abstract Visual Reasoning Enabled by Language [8.627180519837657]
ARCを解くための一般学習型フレームワークを提案する。タスクをビジョンから言語領域に変換することに集中しています。言語と視覚のこの構成により、各段階で事前訓練されたモデルを利用することができる。
論文参考訳（メタデータ） (2023-03-07T17:52:46Z)
Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文参考訳（メタデータ） (2022-08-17T12:36:26Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
DIME: Fine-grained Interpretations of Multimodal Models via Disentangled Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文参考訳（メタデータ） (2022-03-03T20:52:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。