論文の概要: MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal
- arxiv url: http://arxiv.org/abs/2402.11297v1
- Date: Sat, 17 Feb 2024 14:37:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-20 21:57:49.391424
- Title: MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal
- Title(参考訳): MMMModal -- Multi-Images Multi-Audio Multi-turn Multi-Modal
- Authors: Husein Zolkepli, Aisyah Razak, Kamarul Adha, Ariff Nazhan
- Abstract要約: このモデルは、単一のマルチターンセッションにおいて、マルチイメージ、マルチオーディオ、マルチモーダル・マルチオーディオを理解する。
視覚入力にはSigLIPエンコーダ,音声入力にはWhisperを利用する。
この多モーダルな言語モデルはバイリンガルであり、英語とマレー語の両方を同時に理解するのに熟練している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Our contribution introduces a groundbreaking multimodal large language model
designed to comprehend multi-images, multi-audio, and multi-images-multi-audio
within a single multiturn session. Leveraging state-of-the-art models, we
utilize the SigLIP encoder for visual inputs and the Whisper Encoder for audio
inputs. Notably, this multimodal large language model is bilingual, proficient
in understanding both English and Malay simultaneously. We proudly unveil two
versions of this model: TinyLlama with 1.1B parameters, and Mistral with 7B
parameters. With its ability to navigate diverse modalities and languages, our
model represents a significant advancement for the Malaysian context and
beyond.
All models released at
https://huggingface.co/collections/mesolitica/multimodal-malaysian-llm-65c6f893e03f78fa9e5c8859
- Abstract(参考訳): 本稿では,マルチターンセッションでマルチイメージ,マルチオーディオ,マルチイメージを理解できるように設計された,画期的なマルチモーダル大規模言語モデルを提案する。
最先端モデルを利用して視覚入力にSigLIPエンコーダ,音声入力にWhisper Encoderを利用する。
この多モーダルな言語モデルはバイリンガルであり、英語とマレー語の両方を同時に理解するのに熟練している。
我々はこのモデルの2つのバージョンを誇らしげに発表した。1.1bパラメータのtinyllamaと7bパラメータのmistralだ。
多様なモダリティや言語をナビゲートする能力によって、我々のモデルはマレーシアの文脈やその先を大きく前進させています。
すべてのモデルがhttps://huggingface.co/collections/mesolitica/multimodal-malaysian-llm-65c6f893e03f78fa9e5c8859でリリース
関連論文リスト
- Towards Multi-Modal Mastery: A 4.5B Parameter Truly Multi-Modal Small Language Model [0.0]
本稿では,複数入力と出力のモダリティを扱える新しい4.5Bパラメータ小言語モデルを提案する。
モデルのサイズは小さいが、様々なタスクにおける最先端のパフォーマンスをほぼ達成している。
論文 参考訳(メタデータ) (2024-11-08T17:15:17Z) - On Speculative Decoding for Multimodal Large Language Models [11.245862832561176]
MLLM(Multimodal Large Language Models)による推論は,大規模な言語モデルのバックボーンのため遅い。
言語のみのモデルがLLaVA 7Bを用いて投機的復号化のための優れたドラフトモデルとして機能することを示す。
論文 参考訳(メタデータ) (2024-04-13T00:02:36Z) - AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling [115.89786751297348]
我々は,様々なモーダルの統一処理に離散表現を利用する,任意のマルチモーダル言語モデルであるAnyGPTを紹介する。
我々は、マルチモーダルテキスト中心のデータセットを構築し、マルチモーダルアライメント事前学習を行う。
我々は,AnyGPTが任意のマルチモーダル対話を円滑に行うと同時に,すべてのモダリティにまたがる特化モデルに匹敵する性能を実現することができることを示す。
論文 参考訳(メタデータ) (2024-02-19T15:33:10Z) - OneLLM: One Framework to Align All Modalities with Language [86.8818857465443]
統一フレームワークを用いて8つのモーダルを言語に整合させるMLLMであるOneLLMを提案する。
OneLLMは25の多様なベンチマークで評価され、マルチモーダルキャプション、質問応答、推論などのタスクを含む。
論文 参考訳(メタデータ) (2023-12-06T18:59:19Z) - MMoE: Enhancing Multimodal Models with Mixtures of Multimodal Interaction Experts [92.76662894585809]
MMOE(Multimodal Mixtures of Experts)と呼ばれるマルチモーダルモデルの拡張手法を導入する。
MMoEは様々な種類のモデルに適用でき、改善できる。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the Wild [102.93338424976959]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Large Multilingual Models Pivot Zero-Shot Multimodal Learning across Languages [76.35234803589412]
MPMは、英語以外の言語で大規模なマルチモーダルモデルを訓練するための効果的な訓練パラダイムである。
画像・テキスト・テキスト・画像生成における大規模なマルチモーダルモデルVisCPMを構築し,中国語の最先端(オープンソース)性能を実現する。
論文 参考訳(メタデータ) (2023-08-23T09:55:41Z) - ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst [24.517389691825667]
ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
論文 参考訳(メタデータ) (2023-05-25T14:34:08Z) - Breaking Down Multilingual Machine Translation [74.24795388967907]
マルチ言語学習は一般にエンコーダにとって有益であるが,ローソース言語(LRL)ではデコーダにのみ有益であることを示す。
LRLの多言語モデルと一対多モデルは、Aharoniらによって報告された最良の結果よりも優れています。
論文 参考訳(メタデータ) (2021-10-15T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。