論文の概要: Large Language Models can Share Images, Too!
- arxiv url: http://arxiv.org/abs/2310.14804v1
- Date: Mon, 23 Oct 2023 10:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:48:56.400640
- Title: Large Language Models can Share Images, Too!
- Title(参考訳): 大きな言語モデルでも画像を共有できます!
- Authors: Young-Jun Lee, Jonghwan Hyeon, Ho-Jin Choi
- Abstract要約: 本稿では,InstructGPT, ChatGPT, GPT-4などの大規模言語モデルの画像共有機能について,視覚基礎モデルの助けを借りずにゼロショットで検討する。
本稿では,LLMが潜在的画像共有ターンを予測し,関連する画像記述を生成するための2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.25130576615102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the image-sharing capability of Large Language Models
(LLMs), such as InstructGPT, ChatGPT, and GPT-4, in a zero-shot setting,
without the help of visual foundation models. Inspired by the two-stage process
of image-sharing in human dialogues, we propose a two-stage framework that
allows LLMs to predict potential image-sharing turns and generate related image
descriptions using our effective restriction-based prompt template. With
extensive experiments, we unlock the \textit{image-sharing} capability of LLMs
in zero-shot prompting, with GPT-4 achieving the best performance.
Additionally, we uncover the emergent \textit{image-sharing} ability in
zero-shot prompting, demonstrating the effectiveness of restriction-based
prompts in both stages of our framework. Based on this framework, we augment
the PhotoChat dataset with images generated by Stable Diffusion at predicted
turns, namely PhotoChat++. To our knowledge, this is the first study to assess
the image-sharing ability of LLMs in a zero-shot setting without visual
foundation models. The source code and the dataset will be released after
publication.
- Abstract(参考訳): 本稿では,インストラクタGPT,ChatGPT,GPT-4などの大規模言語モデル(LLM)の画像共有機能について,視覚基礎モデルの助けを借りずにゼロショット環境で検討する。
人間の対話における画像共有の2段階プロセスにインスパイアされ、LLMが潜在的な画像共有のターンを予測し、有効な制約ベースのプロンプトテンプレートを用いて関連画像記述を生成するための2段階フレームワークを提案する。
広汎な実験により、ゼロショットプロンプトにおけるLDMの「textit{image-shaup}」機能を解き、GPT-4が最高のパフォーマンスを達成する。
さらに,ゼロショットプロンプトにおける創発的な \textit{image-sharing} 機能を明らかにし,フレームワークの両段階における制約ベースのプロンプトの有効性を示す。
このフレームワークに基づいて、予測ターン、すなわちPhotoChat++でStable Diffusionによって生成された画像でPhotoChatデータセットを拡張する。
我々の知る限り、視覚基礎モデルなしでゼロショット設定でLLMのイメージ共有能力を評価するための最初の研究である。
ソースコードとデータセットは公開後にリリースされる。
関連論文リスト
- What If We Recaption Billions of Web Images with LLaMA-3? [46.20091244944309]
我々はLLaMA-3搭載のLLaVA-1.5を微調整し、DataComp-1Bデータセットから13億枚の画像を取得する。
この拡張データセットであるRecap-DataComp-1Bは、先進的な視覚言語モデルのトレーニングにおいて大きなメリットがあることを確認した。
論文 参考訳(メタデータ) (2024-06-12T17:59:07Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Analyzing the Efficacy of an LLM-Only Approach for Image-based Document
Question Answering [12.064056743478865]
文書質問応答タスクにおける視覚エンコーダと言語モデルの相対的寄与について検討する。
我々の包括的分析は6つの多様なベンチマークデータセットを含み、様々なスケールのLCMを利用している。
以上の結果から, LLMにのみ依存する戦略が, 最先端の成果と同等か, 近づいた結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T07:01:16Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。