論文の概要: ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst
- arxiv url: http://arxiv.org/abs/2305.16103v1
- Date: Thu, 25 May 2023 14:34:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 14:38:19.035307
- Title: ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst
- Title(参考訳): ChatBridge: 言語触媒としての大規模言語モデルによるモダリティのブリッジ
- Authors: Zijia Zhao, Longteng Guo, Tongtian Yue, Sihan Chen, Shuai Shao, Xinxin
Zhu, Zehuan Yuan, Jing Liu
- Abstract要約: ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
- 参考スコア(独自算出の注目度): 24.517389691825667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Building general-purpose models that can perceive diverse real-world
modalities and solve various tasks is an appealing target in artificial
intelligence. In this paper, we present ChatBridge, a novel multimodal language
model that leverages the expressive capabilities of language as the catalyst to
bridge the gap between various modalities. We show that only language-paired
two-modality data is sufficient to connect all modalities. ChatBridge leverages
recent large language models (LLM) and extends their zero-shot capabilities to
incorporate diverse multimodal inputs. ChatBridge undergoes a two-stage
training. The first stage aligns each modality with language, which brings
emergent multimodal correlation and collaboration abilities. The second stage
instruction-finetunes ChatBridge to align it with user intent with our newly
proposed multimodal instruction tuning dataset, named MULTIS, which covers a
wide range of 16 multimodal tasks of text, image, video, and audio modalities.
We show strong quantitative and qualitative results on zero-shot multimodal
tasks covering text, image, video, and audio modalities. All codes, data, and
models of ChatBridge will be open-sourced.
- Abstract(参考訳): 多様な現実世界のモダリティを知覚し、さまざまなタスクを解決できる汎用モデルを構築することは、人工知能の魅力的なターゲットである。
本稿では,多様なモダリティ間のギャップを橋渡しするための触媒として,言語表現能力を活用した新しいマルチモーダル言語モデルchatbridgeを提案する。
すべてのモダリティを接続するには,言語対応の2モードデータだけで十分であることを示す。
ChatBridgeは最近の大規模言語モデル(LLM)を活用し、そのゼロショット機能を拡張して多様なマルチモーダル入力を組み込む。
ChatBridgeは2段階のトレーニングを行っている。
最初の段階は、それぞれのモダリティを言語に合わせることで、創発的なマルチモーダル相関とコラボレーション能力をもたらす。
第2段階であるChatBridgeは,テキスト,画像,ビデオ,音声の多モードタスクを幅広くカバーするマルチモーダル命令チューニングデータセットであるMultiSとユーザ意図を一致させる。
テキスト,画像,ビデオ,音声のモダリティをカバーするゼロショットマルチモーダルタスクにおいて,定量的・定性的な結果を示す。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
関連論文リスト
- VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z) - mPLUG-2: A Modularized Multi-modal Foundation Model Across Text, Image
and Video [89.19867891570945]
mPLUG-2は、マルチモーダル事前訓練のためのモジュール化された設計を備えた新しい統一パラダイムである。
モダリティ協力のための共通普遍加群を共有し、モダリティの絡み合いを扱うために異なるモダリティ加群を切り離す。
テキスト、画像、ビデオを含むすべてのモダリティの異なる理解タスクと生成タスクのために、異なるモジュールを選択することは柔軟です。
論文 参考訳(メタデータ) (2023-02-01T12:40:03Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - Large-scale Bilingual Language-Image Contrastive Learning [17.19890778916312]
我々は11億枚の画像テキストペア(韓国語7800万、英語476万)を集め、KELIPという名前のバイリンガル・マルチモーダルモデルを訓練します。
我々は,MAE事前学習やマルチクロップ強化など,シンプルで効果的なトレーニング手法を導入する。
実験により、そのようなトレーニングスキームで訓練されたモデルは、両方の言語で競合する性能を示すことが示された。
論文 参考訳(メタデータ) (2022-03-28T03:02:03Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。