論文の概要: Foundations of Multisensory Artificial Intelligence
- arxiv url: http://arxiv.org/abs/2404.18976v1
- Date: Mon, 29 Apr 2024 14:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 18:29:43.326362
- Title: Foundations of Multisensory Artificial Intelligence
- Title(参考訳): 多感覚人工知能の基礎
- Authors: Paul Pu Liang,
- Abstract要約: この論文は、多感覚AIの機械学習基盤を前進させることを目的としている。
第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。
第2部では、多くのモダリティやタスクを一般化する実用的なマルチモーダル基礎モデルの設計について検討する。
- 参考スコア(独自算出の注目度): 32.56967614091527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building multisensory AI systems that learn from multiple sensory inputs such as text, speech, video, real-world sensors, wearable devices, and medical data holds great promise for impact in many scientific areas with practical benefits, such as in supporting human health and well-being, enabling multimedia content processing, and enhancing real-world autonomous agents. By synthesizing a range of theoretical frameworks and application domains, this thesis aims to advance the machine learning foundations of multisensory AI. In the first part, we present a theoretical framework formalizing how modalities interact with each other to give rise to new information for a task. These interactions are the basic building blocks in all multimodal problems, and their quantification enables users to understand their multimodal datasets, design principled approaches to learn these interactions, and analyze whether their model has succeeded in learning. In the second part, we study the design of practical multimodal foundation models that generalize over many modalities and tasks, which presents a step toward grounding large language models to real-world sensory modalities. We introduce MultiBench, a unified large-scale benchmark across a wide range of modalities, tasks, and research areas, followed by the cross-modal attention and multimodal transformer architectures that now underpin many of today's multimodal foundation models. Scaling these architectures on MultiBench enables the creation of general-purpose multisensory AI systems, and we discuss our collaborative efforts in applying these models for real-world impact in affective computing, mental health, cancer prognosis, and robotics. Finally, we conclude this thesis by discussing how future work can leverage these ideas toward more general, interactive, and safe multisensory AI.
- Abstract(参考訳): テキスト、音声、ビデオ、現実世界のセンサー、ウェアラブルデバイス、医療データなどの複数の感覚入力から学習する多感覚AIシステムを構築することは、人間の健康と幸福をサポートすること、マルチメディアコンテンツ処理を可能にすること、現実の自律エージェントの強化など、実践的なメリットを持つ多くの科学的領域において、大きな影響を与える可能性がある。
この論文は、さまざまな理論フレームワークとアプリケーションドメインを合成することによって、多感覚AIの機械学習基盤を前進させることを目的としている。
第1部では,タスクに対する新たな情報を生み出すために,モーダルティが相互にどのように相互作用するかを定式化する理論的枠組みを提案する。
これらの相互作用は、すべてのマルチモーダル問題の基本的な構成要素であり、その量子化により、ユーザは、自身のマルチモーダルデータセットを理解し、これらのインタラクションを学ぶための原則化されたアプローチを設計し、モデルが学習に成功したかどうかを分析することができる。
第2部では,多くのモダリティやタスクを一般化する実用的マルチモーダル基礎モデルの設計について検討し,大規模言語モデルから実世界の知覚モデルへの基盤化に向けたステップを示す。
我々は、様々なモダリティ、タスク、研究領域にまたがる統一された大規模ベンチマークであるMultiBenchを紹介し、その後に、今日のマルチモーダル基盤モデルの多くを支えるクロスモーダルアテンションとマルチモーダルトランスフォーマーアーキテクチャを紹介した。
これらのアーキテクチャをMultiBenchにスケールすることで、汎用多感覚AIシステムの構築を可能にし、感情コンピューティング、メンタルヘルス、がん予後、ロボット工学における実世界への影響にこれらのモデルを応用するための協力的な取り組みについて論じる。
最後に、今後の作業がこれらのアイデアを、より汎用的でインタラクティブで安全なマルチセンサーAIにどのように活用できるかを議論することで、この論文を締めくくります。
関連論文リスト
- An Interactive Agent Foundation Model [49.77861810045509]
本稿では,AIエージェントを訓練するための新しいマルチタスクエージェントトレーニングパラダイムを用いた対話型エージェント基礎モデルを提案する。
トレーニングパラダイムは、視覚マスク付きオートエンコーダ、言語モデリング、次世代の予測など、多様な事前学習戦略を統一する。
私たちは、ロボティクス、ゲームAI、ヘルスケアという3つの異なる領域でフレームワークのパフォーマンスを実演します。
論文 参考訳(メタデータ) (2024-02-08T18:58:02Z) - MultiIoT: Benchmarking Machine Learning for the Internet of Things [70.74131118309967]
次世代の機械学習システムは、物理的世界に対する知覚と相互作用に長けなければならない。
運動、熱、位置情報、深度、無線信号、ビデオ、オーディオからの知覚データは、物理環境の状態をモデル化するためにますます使われています。
既存の取り組みは、しばしば単一の感覚的モダリティまたは予測タスクに特化している。
本稿は、12のモダリティと8つの現実世界タスクから115万以上のサンプルを含む、これまでで最も拡張的で統一されたIoTベンチマークであるMultiIoTを提案する。
論文 参考訳(メタデータ) (2023-11-10T18:13:08Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - Multimodal foundation models are better simulators of the human brain [65.10501322822881]
1500万の画像テキストペアを事前訓練した,新たに設計されたマルチモーダル基礎モデルを提案する。
視覚的エンコーダも言語的エンコーダもマルチモーダルで訓練され,脳に近いことが判明した。
論文 参考訳(メタデータ) (2022-08-17T12:36:26Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Towards open and expandable cognitive AI architectures for large-scale
multi-agent human-robot collaborative learning [5.478764356647437]
多エージェントLfDロボット学習のための新しい認知アーキテクチャを導入し、オープンでスケーラブルで拡張可能なロボットシステムの信頼性の高い展開を可能にする。
この概念化は、ロボットプラットフォームのネットワークの端ノードで動作する複数のAI駆動の認知プロセスを採用することに依存している。
提案フレームワークの適用性は,実世界の産業ケーススタディの例を用いて説明できる。
論文 参考訳(メタデータ) (2020-12-15T09:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。