論文の概要: i-Code Studio: A Configurable and Composable Framework for Integrative
AI
- arxiv url: http://arxiv.org/abs/2305.13738v1
- Date: Tue, 23 May 2023 06:45:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-24 18:37:48.644512
- Title: i-Code Studio: A Configurable and Composable Framework for Integrative
AI
- Title(参考訳): i-Code Studio: 統合AIのための構成可能で構成可能なフレームワーク
- Authors: Yuwei Fang, Mahmoud Khademi, Chenguang Zhu, Ziyi Yang, Reid Pryzant,
Yichong Xu, Yao Qian, Takuya Yoshioka, Lu Yuan, Michael Zeng and Xuedong
Huang
- Abstract要約: 統合AIのためのフレキシブルで構成可能なフレームワークであるi-Code Studioを提案する。
i-Code Studioは、複雑なマルチモーダルタスクを実行するために、微調整なしで複数の事前訓練されたモデルを編成する。
i-Code Studioは、ビデオからテキストへの検索、音声から音声への翻訳、視覚的質問応答など、さまざまなゼロショットマルチモーダルタスクに関する印象的な結果を達成する。
- 参考スコア(独自算出の注目度): 93.74891865028867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial General Intelligence (AGI) requires comprehensive understanding
and generation capabilities for a variety of tasks spanning different
modalities and functionalities. Integrative AI is one important direction to
approach AGI, through combining multiple models to tackle complex multimodal
tasks. However, there is a lack of a flexible and composable platform to
facilitate efficient and effective model composition and coordination. In this
paper, we propose the i-Code Studio, a configurable and composable framework
for Integrative AI. The i-Code Studio orchestrates multiple pre-trained models
in a finetuning-free fashion to conduct complex multimodal tasks. Instead of
simple model composition, the i-Code Studio provides an integrative, flexible,
and composable setting for developers to quickly and easily compose
cutting-edge services and technologies tailored to their specific requirements.
The i-Code Studio achieves impressive results on a variety of zero-shot
multimodal tasks, such as video-to-text retrieval, speech-to-speech
translation, and visual question answering. We also demonstrate how to quickly
build a multimodal agent based on the i-Code Studio that can communicate and
personalize for users.
- Abstract(参考訳): 人工知能(AGI)は、様々なモダリティと機能にまたがる様々なタスクに対して、包括的な理解と生成能力を必要とする。
統合AIは、複雑なマルチモーダルタスクに取り組むために複数のモデルを組み合わせることで、AGIにアプローチするための重要な方向のひとつです。
しかし、効率的で効果的なモデル構成と調整を容易にする柔軟性と構成可能なプラットフォームが欠如している。
本稿では,統合型AIのための構成可能で構成可能なフレームワークであるi-Code Studioを提案する。
i-Code Studioは、複雑なマルチモーダルタスクを実行するために、複数の事前訓練されたモデルを微調整なしで編成する。
シンプルなモデル構成の代わりに、i-code studioは統合的で柔軟で構成可能な設定を提供し、開発者は特定の要求に合わせた最先端のサービスや技術を素早く簡単に構成できる。
i-Code Studioは、ビデオからテキストへの検索、音声から音声への翻訳、視覚的質問応答など、さまざまなゼロショットマルチモーダルタスクに関する印象的な結果を達成する。
また,ユーザとのコミュニケーションやパーソナライズが可能なi-code studioをベースとしたマルチモーダルエージェントを迅速に構築する方法をデモする。
関連論文リスト
- WavLLM: Towards Robust and Adaptive Speech Large Language Model [93.0773293897888]
本稿では,2つのエンコーダを持つ頑健で適応的な音声大言語モデルであるWavLLMと,プロンプト対応のLoRA重み付けアダプタを紹介する。
ASR, ST, SV, ERなどのタスクを含むユニバーサル音声ベンチマークにおいて提案手法の有効性を検証し, SQA用ガオカオ英語聴取理解セット, CoT 評価セットなどの特殊データセットに適用する。
論文 参考訳(メタデータ) (2024-03-31T12:01:32Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z) - SAI: Solving AI Tasks with Systematic Artificial Intelligence in
Communication Network [4.302209772725456]
Systematic Artificial Intelligence(SAI)は、Large Language Models(LLM)とインテントフォーマットベースのインプットを活用することで、AIタスクを解決するために設計されたフレームワークである。
SAIは、通信ネットワークで多数の複雑なAIタスクを完了し、ネットワーク最適化、リソース割り当て、その他の困難なタスクにおいて驚くべき結果を達成することができる。
論文 参考訳(メタデータ) (2023-10-13T12:14:58Z) - Macaw-LLM: Multi-Modal Language Modeling with Image, Audio, Video, and
Text Integration [50.94902442781148]
視覚情報,音声情報,テキスト情報をシームレスに統合する新しい多モード大言語モデル(LLM)を提案する。
Macaw-LLMは、マルチモーダルデータを符号化するモダリティモジュール、事前訓練されたLLMを利用する認知モジュール、多様な表現を調和させるアライメントモジュールの3つの主要コンポーネントから構成される。
我々は,69K画像インスタンスと50Kビデオインスタンスを含む,大規模なマルチモーダル・インストラクション・データセットを構築した。
論文 参考訳(メタデータ) (2023-06-15T12:45:25Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。