論文の概要: LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation,
Generation and Editing
- arxiv url: http://arxiv.org/abs/2311.00571v1
- Date: Wed, 1 Nov 2023 15:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 13:18:53.100232
- Title: LLaVA-Interactive: An All-in-One Demo for Image Chat, Segmentation,
Generation and Editing
- Title(参考訳): LLaVA-Interactive:画像チャット、セグメンテーション、生成、編集のためのオールインワンデモ
- Authors: Wei-Ge Chen, Irina Spiridonova, Jianwei Yang, Jianfeng Gao, Chunyuan
Li
- Abstract要約: 本システムは,マルチモーダルなユーザ入力を受信し,マルチモーダルな応答を生成することで,ユーザとのマルチターン対話を実現する。
LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトは、インタラクションにおける人間の意図を調整するために有効である。
- 参考スコア(独自算出の注目度): 99.80742991922992
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLaVA-Interactive is a research prototype for multimodal human-AI
interaction. The system can have multi-turn dialogues with human users by
taking multimodal user inputs and generating multimodal responses. Importantly,
LLaVA-Interactive goes beyond language prompt, where visual prompt is enabled
to align human intents in the interaction. The development of LLaVA-Interactive
is extremely cost-efficient as the system combines three multimodal skills of
pre-built AI models without additional model training: visual chat of LLaVA,
image segmentation from SEEM, as well as image generation and editing from
GLIGEN. A diverse set of application scenarios is presented to demonstrate the
promises of LLaVA-Interactive and to inspire future research in multimodal
interactive systems.
- Abstract(参考訳): LLaVA-Interactiveはマルチモーダルな人間-AIインタラクションのプロトタイプである。
本システムは,マルチモーダルユーザ入力を受信し,マルチモーダル応答を生成することで,ユーザとのマルチターン対話を実現する。
重要なのは、LLaVA-Interactiveは言語プロンプトを超えており、視覚的プロンプトが相互作用における人間の意図を一致させる。
LLaVA-Interactiveの開発は、LLaVAのビジュアルチャット、SEEMの画像セグメンテーション、GLIGENの画像生成と編集の3つのプレビルドAIモデルのマルチモーダルスキルを組み合わせることで、非常にコスト効率が良い。
多様なアプリケーションシナリオが紹介され、LLaVA-Interactiveの可能性を実証し、マルチモーダルインタラクティブシステムにおける将来の研究を刺激する。
関連論文リスト
- LLMBind: A Unified Modality-Task Integration Framework [38.95771765322677]
本稿では,大規模言語モデルとタスク固有のトークンを結合したモータリティタスク統合のための統合フレームワークを提案する。
私たちのフレームワークは、他のモダリティタスクに容易に拡張することができ、統合AIエージェントを作成する有望な可能性を示している。
論文 参考訳(メタデータ) (2024-02-22T12:36:31Z) - Multimodal Embodied Interactive Agent for Cafe Scene [86.81802927029976]
本稿では,自然言語で表現されたハイレベルなタスクを実行可能なアクションのシーケンスに変換するための,MEIA(Multimodal Embodied Interactive Agent)を提案する。
具体的には,シーンの視覚的記憶を介し,大規模モデルとの組込み制御を容易にする,新しいMultimodal Environment Memory (MEM) モジュールを提案する。
論文 参考訳(メタデータ) (2024-02-01T02:43:20Z) - LLaVA-Phi: Efficient Multi-Modal Assistant with Small Language Model [20.209674713676872]
効率的なマルチモーダルアシスタントであるLLaVA-$phi$(LLaVA-Phi)を紹介する。
LLaVA-Phiは、最近進歩した小言語モデルPhi-2のパワーを利用する。
論文 参考訳(メタデータ) (2024-01-04T16:07:43Z) - DialCLIP: Empowering CLIP as Multi-Modal Dialog Retriever [83.33209603041013]
マルチモーダルダイアログ検索のためのパラメータ効率の高いプロンプトチューニング手法であるDialCLIPを提案する。
提案手法では,事前学習された視覚言語モデルCLIP内のプロンプトに抽出された文脈特徴を学習するためのマルチモーダルコンテキスト生成手法を提案する。
様々なタイプの検索を容易にするために,CLIP出力からマルチモーダル表現空間へのマッピングを学習するために,複数の専門家を設計する。
論文 参考訳(メタデータ) (2024-01-02T07:40:12Z) - Mastering Robot Manipulation with Multimodal Prompts through Pretraining
and Multi-task Fine-tuning [51.80266015638394]
マルチタスクの専門家軌道からマルチモーダルプロンプトを用いたロボット操作のポリシーを学習するフレームワークを提案する。
本手法は,逆ダイナミクス事前学習とマルチタスク微調整を行う2段階の訓練パイプラインから構成される。
実験により,本手法のVIMA-BENCHに対する有効性を評価し,新たな最先端(成功率10%向上)を確立した。
論文 参考訳(メタデータ) (2023-10-14T22:24:58Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Expanding Frozen Vision-Language Models without Retraining: Towards
Improved Robot Perception [0.0]
視覚言語モデル(VLM)は、視覚的質問応答と推論タスクにおいて強力な能力を示している。
本稿では,異なるモダリティの埋め込み空間を視覚埋め込み空間に整列させる手法を示す。
複数モードを入力として使用すると、VLMのシーン理解が向上し、様々なタスクにおける全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-08-31T06:53:55Z) - ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring
Instruction Tuning [24.87615615489849]
本稿では,ポイントやボックスなどの多様な参照表現を参照プロンプトとして用いて,特定の領域を参照するための正確な参照命令を提案する。
マウスクリックやドラッグアンドドロップ,描画ボックスなど,さまざまな形式の対話性をサポートする,エンドツーエンドの多モーダルな大規模言語モデルであるChatSpotを提案する。
論文 参考訳(メタデータ) (2023-07-18T17:56:06Z) - Chat with the Environment: Interactive Multimodal Perception Using Large
Language Models [19.623070762485494]
大型言語モデル(LLM)は、数発のロボット計画において顕著な推論能力を示している。
本研究は,LLMがマルチモーダル環境下での対話型ロボットの動作を制御し,高レベルな計画と推論能力を提供することを示す。
論文 参考訳(メタデータ) (2023-03-14T23:01:27Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。