論文の概要: Large Language Models can Share Images, Too!
- arxiv url: http://arxiv.org/abs/2310.14804v1
- Date: Mon, 23 Oct 2023 10:59:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:48:56.400640
- Title: Large Language Models can Share Images, Too!
- Title(参考訳): 大きな言語モデルでも画像を共有できます!
- Authors: Young-Jun Lee, Jonghwan Hyeon, Ho-Jin Choi
- Abstract要約: 本稿では,InstructGPT, ChatGPT, GPT-4などの大規模言語モデルの画像共有機能について,視覚基礎モデルの助けを借りずにゼロショットで検討する。
本稿では,LLMが潜在的画像共有ターンを予測し,関連する画像記述を生成するための2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.25130576615102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the image-sharing capability of Large Language Models
(LLMs), such as InstructGPT, ChatGPT, and GPT-4, in a zero-shot setting,
without the help of visual foundation models. Inspired by the two-stage process
of image-sharing in human dialogues, we propose a two-stage framework that
allows LLMs to predict potential image-sharing turns and generate related image
descriptions using our effective restriction-based prompt template. With
extensive experiments, we unlock the \textit{image-sharing} capability of LLMs
in zero-shot prompting, with GPT-4 achieving the best performance.
Additionally, we uncover the emergent \textit{image-sharing} ability in
zero-shot prompting, demonstrating the effectiveness of restriction-based
prompts in both stages of our framework. Based on this framework, we augment
the PhotoChat dataset with images generated by Stable Diffusion at predicted
turns, namely PhotoChat++. To our knowledge, this is the first study to assess
the image-sharing ability of LLMs in a zero-shot setting without visual
foundation models. The source code and the dataset will be released after
publication.
- Abstract(参考訳): 本稿では,インストラクタGPT,ChatGPT,GPT-4などの大規模言語モデル(LLM)の画像共有機能について,視覚基礎モデルの助けを借りずにゼロショット環境で検討する。
人間の対話における画像共有の2段階プロセスにインスパイアされ、LLMが潜在的な画像共有のターンを予測し、有効な制約ベースのプロンプトテンプレートを用いて関連画像記述を生成するための2段階フレームワークを提案する。
広汎な実験により、ゼロショットプロンプトにおけるLDMの「textit{image-shaup}」機能を解き、GPT-4が最高のパフォーマンスを達成する。
さらに,ゼロショットプロンプトにおける創発的な \textit{image-sharing} 機能を明らかにし,フレームワークの両段階における制約ベースのプロンプトの有効性を示す。
このフレームワークに基づいて、予測ターン、すなわちPhotoChat++でStable Diffusionによって生成された画像でPhotoChatデータセットを拡張する。
我々の知る限り、視覚基礎モデルなしでゼロショット設定でLLMのイメージ共有能力を評価するための最初の研究である。
ソースコードとデータセットは公開後にリリースされる。
関連論文リスト
- Prompting Large Vision-Language Models for Compositional Reasoning [12.908633583017359]
本研究では,大規模な視覚言語モデルに画像の描写を促し,合成推論を行う新しい生成手法を提案する。
提案手法は,Winogroundデータセット上の他の埋め込み手法よりも優れており,最適記述によって拡張された場合,最大10%の精度が向上する。
論文 参考訳(メタデータ) (2024-01-20T22:04:28Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - OpenLEAF: Open-Domain Interleaved Image-Text Generation and Evaluation [151.57313182844936]
本稿では,大規模言語モデル(LLM)と事前学習されたテキスト・ツー・イメージ(T2I)モデル,すなわちOpenLEAFに基づく新たなインターリーブ生成フレームワークを提案する。
まず,大規模マルチモーダルモデル(LMM)を用いて,オープンドメインのインターリーブ画像-テキストシーケンスのエンティティとスタイルのコンピテンシーを評価することを提案する。
論文 参考訳(メタデータ) (2023-10-11T17:58:33Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。
既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。
本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文 参考訳(メタデータ) (2023-05-22T12:13:08Z) - MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large
Language Models [41.84885546518666]
GPT-4は、手書きテキストから直接Webサイトを生成するなど、驚くべきマルチモーダル能力を示している。
凍結型ビジュアルエンコーダと凍結型大規模言語モデルとを協調するMiniGPT-4を提案する。
また,MiniGPT-4の新たな特徴として,与えられた画像にインスパイアされた物語や詩を書くことが挙げられる。
論文 参考訳(メタデータ) (2023-04-20T18:25:35Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。