論文の概要: Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic
- arxiv url: http://arxiv.org/abs/2306.15195v2
- Date: Mon, 3 Jul 2023 16:08:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-04 12:03:47.776298
- Title: Shikra: Unleashing Multimodal LLM's Referential Dialogue Magic
- Title(参考訳): シクラ:マルチモーダルLLMの参照対話マジックを公開
- Authors: Keqin Chen, Zhao Zhang, Weili Zeng, Richong Zhang, Feng Zhu, Rui Zhao
- Abstract要約: 人間の会話では、個人は、他人に話しかけながらシーン内の関連領域を示すことができる。
この対話における自然な参照能力は、現在のマルチモーダル大言語モデルには残っていない。
本稿では,空間座標の入力と出力を自然言語で処理できる「シクラ」というMLLMを提案する。
- 参考スコア(独自算出の注目度): 26.852628804626494
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In human conversations, individuals can indicate relevant regions within a
scene while addressing others. In turn, the other person can then respond by
referring to specific regions if necessary. This natural referential ability in
dialogue remains absent in current Multimodal Large Language Models (MLLMs). To
fill this gap, this paper proposes an MLLM called Shikra, which can handle
spatial coordinate inputs and outputs in natural language. Its architecture
consists of a vision encoder, an alignment layer, and a LLM. It is designed to
be straightforward and simple, without the need for extra vocabularies,
position encoder, pre-/post-detection modules, or external plug-in models. All
inputs and outputs are in natural language form. Referential dialogue is a
superset of various vision-language (VL) tasks. Shikra can naturally handle
location-related tasks like REC and PointQA, as well as conventional VL tasks
such as Image Captioning and VQA. Experimental results showcase Shikra's
promising performance. Furthermore, it enables numerous exciting applications,
like providing mentioned objects' coordinates in chains of thoughts and
comparing user-pointed regions similarities. Our code, model and dataset are
accessed at https://github.com/shikras/shikra.
- Abstract(参考訳): 人間の会話では、個人は、他人に話しかけながらシーン内の関連領域を示すことができる。
相手は、必要に応じて特定の地域を参照して応答することができる。
この対話における自然な参照能力は、現在のマルチモーダル大言語モデル(mllm)にはない。
そこで本研究では,空間座標の入力と出力を自然言語で処理できる「シクラ」というMLLMを提案する。
そのアーキテクチャはビジョンエンコーダ、アライメント層、llmで構成されている。
余分な語彙、位置エンコーダ、プレ/ポスト検出モジュール、外部プラグインモデルを必要としない、単純でシンプルなように設計されている。
すべての入力と出力は自然言語形式である。
参照対話は様々な視覚言語(VL)タスクのスーパーセットである。
Shikraは、RECやPointQAといった位置関連タスクや、Image CaptioningやVQAといった従来のVLタスクを自然に処理できる。
実験結果はシクラの有望なパフォーマンスを示している。
さらに、前述のオブジェクトの座標を思考の連鎖で提供したり、ユーザ視点の領域の類似性を比較するなど、多くのエキサイティングなアプリケーションを可能にします。
私たちのコード、モデル、データセットはhttps://github.com/shikras/shikraでアクセスできます。
関連論文リスト
- ROCKET-1: Mastering Open-World Interaction with Visual-Temporal Context Prompting [24.56720920528011]
視覚言語モデル(VLM)は、マルチモーダルなタスクに優れていますが、オープンワールド環境における意思決定の具体化にそれらを適用することは、課題を示します。
1つの重要な問題は、低レベルの観測における個別の実体と効果的な計画に必要な抽象概念のギャップを埋めることである。
VLMとポリシーモデルの間の新しい通信プロトコルである視覚的時間的コンテキストを提案する。
論文 参考訳(メタデータ) (2024-10-23T13:26:59Z) - Empowering Segmentation Ability to Multi-modal Large Language Models [19.685984211930354]
マルチモーダルな大言語モデル(MLLM)をセグメンテーション能力で拡張する。
拡張MLLMは、画像言語プロンプトに対する言語応答を出力し、言語プロンプト内の複雑な質問やクエリがフォーカスする領域をセグメント化することができる。
LLaVASegと呼ばれる新しいMLLMフレームワークを提案する。このフレームワークは,MLLMにユーザによってクエリされたターゲット領域を分割するように指示するチェーン・オブ・シークレット・プロンプト戦略を利用する。
論文 参考訳(メタデータ) (2024-03-21T05:36:25Z) - GeoChat: Grounded Large Vision-Language Model for Remote Sensing [65.78360056991247]
提案するGeoChatは,高解像度RS画像を用いたマルチタスク対話機能を備えた,世界初の汎用リモートセンシング大型ビジョンランゲージモデル(VLM)である。
具体的には、GeoChatは画像レベルのクエリに応答できるが、リージョン固有の対話を保持するためにリージョン入力を受け付けている。
GeoChatは、画像や領域キャプション、視覚的質問応答、シーン分類、視覚的に接地された会話、参照検出など、様々なRSタスクに対して、堅牢なゼロショット性能を示す。
論文 参考訳(メタデータ) (2023-11-24T18:59:10Z) - GLaMM: Pixel Grounding Large Multimodal Model [57.91763410032292]
本研究では,対応するオブジェクトセグメンテーションマスクとシームレスに相互作用する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。
GLaMMはテキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。
提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。
論文 参考訳(メタデータ) (2023-11-06T18:59:57Z) - CogVLM: Visual Expert for Pretrained Language Models [56.69978233342978]
我々は,オープンソースのビジュアル言語基盤モデルであるCogVLMを紹介する。
CogVLMは、凍結した事前訓練された言語モデルとイメージエンコーダの間のギャップを、注意とFFN層でトレーニング可能なビジュアルエキスパートモジュールによって埋める。
CogVLM-17Bは、NoCaps、Flicker30kキャプション、RefCOCO、RefCOCOg、Visual7W、GQA、ScienceQA、VizWiz VQA、TDIUCを含む10の古典的なクロスモーダルベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-11-06T13:04:39Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - Locate Then Generate: Bridging Vision and Language with Bounding Box for
Scene-Text VQA [15.74007067413724]
STVQA(Scene Text Visual Question Answering)のための新しいフレームワークを提案する。
質問応答には画像中のシーンテキストを読む必要がある。
論文 参考訳(メタデータ) (2023-04-04T07:46:40Z) - Language Is Not All You Need: Aligning Perception with Language Models [110.51362453720458]
Kosmos-1はMLLM(Multimodal Large Language Model)で、一般的なモダリティを認識し、文脈で学習し、指示に従うことができる。
我々は、任意にインターリーブされたテキストと画像、画像キャプチャペア、テキストデータを含む、Webスケールのマルチモーダルコーパス上で、Kosmos-1をスクラッチからトレーニングする。
実験結果から,Kosmos-1 は (i) 言語理解,生成,さらには OCR フリー NLP において優れた性能を発揮することが示された。
また、MLLMは言語からマルチモーダルへの知識の伝達や多モーダルから言語への知識の伝達といった、クロスモーダル転送の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2023-02-27T18:55:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。