論文の概要: Sparkles: Unlocking Chats Across Multiple Images for Multimodal
Instruction-Following Models
- arxiv url: http://arxiv.org/abs/2308.16463v2
- Date: Mon, 2 Oct 2023 03:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-03 13:08:26.183279
- Title: Sparkles: Unlocking Chats Across Multiple Images for Multimodal
Instruction-Following Models
- Title(参考訳): Sparkles:マルチモーダルインストラクション追従モデルのための複数の画像間のチャットのアンロック
- Authors: Yupan Huang and Zaiqiao Meng and Fangyu Liu and Yixuan Su and Nigel
Collier and Yutong Lu
- Abstract要約: 本稿では,複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。
トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesueを紹介した。
本研究では,複数の画像間の理解と推論におけるSparklesChatの有効性を検証した。
- 参考スコア(独自算出の注目度): 64.43988773982852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models exhibit enhanced zero-shot performance on various tasks
when fine-tuned with instruction-following data. Multimodal
instruction-following models extend these capabilities by integrating both text
and images. However, existing models such as MiniGPT-4 face challenges in
maintaining dialogue coherence in scenarios involving multiple images. A
primary reason is the lack of a specialized dataset for this critical
application. To bridge these gaps, we present SparklesChat, a multimodal
instruction-following model for open-ended dialogues across multiple images. To
support the training, we introduce SparklesDialogue, the first
machine-generated dialogue dataset tailored for word-level interleaved
multi-image and text interactions. Furthermore, we construct SparklesEval, a
GPT-assisted benchmark for quantitatively assessing a model's conversational
competence across multiple images and dialogue turns. Our experiments validate
the effectiveness of SparklesChat in understanding and reasoning across
multiple images and dialogue turns. Specifically, SparklesChat outperformed
MiniGPT-4 on established vision-and-language benchmarks, including the BISON
binary image selection task and the NLVR2 visual reasoning task. Moreover,
SparklesChat scored 8.56 out of 10 on SparklesEval, substantially exceeding
MiniGPT-4's score of 3.91 and nearing GPT-4's score of 9.26. Qualitative
evaluations further demonstrate SparklesChat's generality in handling
real-world applications. All resources are available at
https://github.com/HYPJUDY/Sparkles.
- Abstract(参考訳): 大きな言語モデルでは、命令追従データで微調整された場合、様々なタスクでゼロショット性能が向上する。
マルチモーダル命令追従モデルは、テキストと画像を統合することでこれらの機能を拡張する。
しかし、MiniGPT-4のような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で困難に直面している。
主な理由は、この重要なアプリケーションに特別なデータセットがないことである。
これらのギャップを埋めるために、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。
トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介した。
さらに,複数の画像と対話方向をまたいだモデルの会話能力を定量的に評価するためのGPT支援ベンチマークであるSparklesEvalを構築した。
実験では,複数の画像と対話の順番に対する理解と推論におけるsparkleschatの有効性を検証する。
特にsparkleschatは、bisonバイナリ画像選択タスクやnlvr2ビジュアル推論タスクなど、確立された視覚言語ベンチマークでminigpt-4を上回っている。
さらにSparklesChatはSparklesEvalで10点中8.56点を獲得し、MiniGPT-4のスコアは3.91点、GPT-4のスコアは9.26点に近かった。
質的評価は、現実世界のアプリケーションを扱う際のsparkleschatの汎用性をさらに示している。
すべてのリソースはhttps://github.com/HYPJUDY/Sparklesで入手できる。
関連論文リスト
- DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Large Language Models can Share Images, Too! [7.25130576615102]
本稿では,InstructGPT, ChatGPT, GPT-4などの大規模言語モデルの画像共有機能について,視覚基礎モデルの助けを借りずにゼロショットで検討する。
本稿では,LLMが潜在的画像共有ターンを予測し,関連する画像記述を生成するための2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-23T10:59:21Z) - Parrot: Enhancing Multi-Turn Chat Models by Learning to Ask Questions [34.560172199398075]
オープンソースのチャットモデルと主要なチャットモデルの間のマルチターン会話には、顕著なラグがある。
高品質なインストラクションチューニングデータを自動的に生成するように設計された,スケーラブルなソリューションであるParrotを紹介する。
Parrot-Chatは他の13Bオープンソースモデルに対して、命令追従ベンチマークの範囲で強力なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-10-11T08:36:43Z) - Video-ChatGPT: Towards Detailed Video Understanding via Large Vision and
Language Models [60.04060735194162]
本研究は,ビデオチャットGPTを導入することで,ビデオベースの会話の未探索領域に対処する。
ビデオ適応型ビジュアルエンコーダと大言語モデル(LLM)を融合したマルチモーダルモデルである。
このモデルは、ビデオに関する人間のような会話を理解し、生成することができる。
論文 参考訳(メタデータ) (2023-06-08T17:59:56Z) - Building Multimodal AI Chatbots [2.1987180245567246]
この研究の目的は、人間とチャットし、関連する写真を共有するマルチモーダルAIシステムを作ることだ。
テキストを理解する画像検索器と、画像を理解する応答生成器の2つのマルチモーダルディープラーニングモデルを提案する。
2つのモデルは、各セッションで写真を共有するオープンドメインの対話データセットであるPhotoChatでトレーニングされ、評価される。
論文 参考訳(メタデータ) (2023-04-21T16:43:54Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on
Reasoning, Hallucination, and Interactivity [79.12003701981092]
8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。
これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチリンガル、マルチモーダルの側面を評価する。
ChatGPTの精度は平均63.41%で、論理的推論、非テキスト的推論、コモンセンス推論の10の異なる推論カテゴリで正確である。
論文 参考訳(メタデータ) (2023-02-08T12:35:34Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z) - Modality-Balanced Models for Visual Dialogue [102.35406085738325]
Visual Dialogタスクは、対話に対する次の応答を生成するために、画像情報と会話コンテキスト情報の両方を利用するモデルを必要とする。
過去の共同モダリティ(歴史とイメージ)モデルが過度に再現され,対話履歴を記憶する傾向が強いことを示す。
本稿では,共有パラメータを用いたアンサンブルとコンセンサス・ドロップアウト融合による2つのモデルの統合手法を提案する。
論文 参考訳(メタデータ) (2020-01-17T14:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。