論文の概要: ChatIllusion: Efficient-Aligning Interleaved Generation ability with
Visual Instruction Model
- arxiv url: http://arxiv.org/abs/2311.17963v1
- Date: Wed, 29 Nov 2023 11:30:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-01 19:25:50.402001
- Title: ChatIllusion: Efficient-Aligning Interleaved Generation ability with
Visual Instruction Model
- Title(参考訳): chatillusion:ビジュアルインストラクションモデルによる効率の良いインターリーブ生成能力
- Authors: Xiaowei Chi, Yijiang Liu, Zhengkai Jiang, Rongyu Zhang, Ziyi Lin,
Renrui Zhang, Peng Gao, Chaoyou Fu, Shanghang Zhang, Qifeng Liu, Yike Guo
- Abstract要約: MLLM(Advanced Generative Multimodal Large Language Model)であるChatIllusionを紹介する。
ChatIllusionは、安定拡散XLとLlamaを統合している。
ChatIllusionの中心的なコンポーネントは"GenAdapter"である。
- 参考スコア(独自算出の注目度): 50.25905026285644
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: As the capabilities of Large-Language Models (LLMs) become widely recognized,
there is an increasing demand for human-machine chat applications. Human
interaction with text often inherently invokes mental imagery, an aspect that
existing LLM-based chatbots like GPT-4 do not currently emulate, as they are
confined to generating text-only content. To bridge this gap, we introduce
ChatIllusion, an advanced Generative multimodal large language model (MLLM)
that combines the capabilities of LLM with not only visual comprehension but
also creativity. Specifically, ChatIllusion integrates Stable Diffusion XL and
Llama, which have been fine-tuned on modest image-caption data, to facilitate
multiple rounds of illustrated chats. The central component of ChatIllusion is
the "GenAdapter," an efficient approach that equips the multimodal language
model with capabilities for visual representation, without necessitating
modifications to the foundational model. Extensive experiments validate the
efficacy of our approach, showcasing its ability to produce diverse and
superior-quality image outputs Simultaneously, it preserves semantic
consistency and control over the dialogue, significantly enhancing the overall
user's quality of experience (QoE). The code is available at
https://github.com/litwellchi/ChatIllusion.
- Abstract(参考訳): LLM(Large-Language Models)の能力が広く認知されるにつれ、ヒューマンマシンチャットアプリケーションへの需要が高まっている。
gpt-4のような既存のllmベースのチャットボットは、テキストのみのコンテンツの生成に制限されているため、現在エミュレートされていない。
このギャップを埋めるために、私たちは、LLMの能力と視覚的理解だけでなく創造性も組み合わせた、先進的な生成型マルチモーダル言語モデル(MLLM)であるChatIllusionを紹介します。
具体的には、安定した拡散xlとllamaが統合されており、画像キャプチャーデータに基づいて微調整されている。
ChatIllusionの中心的なコンポーネントである"GenAdapter"は、基本的なモデルの変更を必要とせずに、視覚的表現の能力を備えたマルチモーダル言語モデルを備えた効率的なアプローチである。
提案手法の有効性を検証し,多様で高品質な画像出力を同時に生成する能力を示し,対話における意味的一貫性と制御を保ち,ユーザ体験の質(qoe)を著しく向上させる。
コードはhttps://github.com/litwellchi/chatillusionで入手できる。
関連論文リスト
- Multi-modal Instruction Tuned LLMs with Fine-grained Visual Perception [63.03288425612792]
マルチモーダル参照から画素単位のオブジェクト認識と自然言語記述を生成できる汎用MLLMモデルであるbfAnyRefを提案する。
本モデルでは,領域レベルの参照表現生成とセグメンテーションの多様さを含む,複数のベンチマークにおける最先端結果を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:45:46Z) - Chat Vector: A Simple Approach to Equip LLMs with Instruction Following
and Model Alignment in New Languages [42.11732537807556]
本稿では,事前訓練された言語モデルに,指示追従と人的価値アライメントを備えたチャットベクトルの概念を導入する。
継続した事前学習モデルの重み付けにチャットベクトルを追加するだけで、さらなるトレーニングを必要とせずに、新しい言語でチャット機能を備えたモデルを実現することができる。
論文 参考訳(メタデータ) (2023-10-07T13:34:21Z) - TextBind: Multi-turn Interleaved Multimodal Instruction-following in the
Wild [107.3667463295682]
マルチターンインターリーブ型インストラクションフォロー機能を備えた,より大規模な言語モデルを実現するための,ほとんどアノテーションのないフレームワークであるTextBindを紹介する。
提案手法では,画像キャプチャペアのみが必要であり,言語モデルからマルチターンマルチモーダル・インストラクション・レスポンス・会話を生成する。
そこで我々は,画像エンコーダとデコーダモデルをシームレスに統合する言語モデル中心アーキテクチャであるMIMを考案した。
論文 参考訳(メタデータ) (2023-09-14T15:34:01Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual
Tokenization [53.946191253524766]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - ChatBridge: Bridging Modalities with Large Language Model as a Language
Catalyst [24.517389691825667]
ChatBridgeは、様々なモダリティ間のギャップを埋めるために、言語の表現能力を活用する、新しいマルチモーダル言語モデルである。
ChatBridgeのコード、データ、モデルはすべてオープンソースになる。
論文 参考訳(メタデータ) (2023-05-25T14:34:08Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。