論文の概要: Large Language Models can Share Images, Too!
- arxiv url: http://arxiv.org/abs/2310.14804v2
- Date: Thu, 4 Jul 2024 13:55:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 00:52:08.574184
- Title: Large Language Models can Share Images, Too!
- Title(参考訳): 大きな言語モデルでも画像を共有できます!
- Authors: Young-Jun Lee, Dokyong Lee, Joo Won Sung, Jonghwan Hyeon, Ho-Jin Choi,
- Abstract要約: 本稿では,GPT-4 や LLaMA 2 などの大規模言語モデル (LLM) のゼロショット設定における画像共有機能について検討する。
私たちは、リッチなインテント、文のトリガー、画像記述、健全な情報を含むPhotoChat++データセットを紹介します。
広汎な実験により、ゼロショットプロンプトにおいてLDMを備えたDribeRの画像共有能力を解放する。
- 参考スコア(独自算出の注目度): 5.505013339790826
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the image-sharing capability of Large Language Models (LLMs), such as GPT-4 and LLaMA 2, in a zero-shot setting. To facilitate a comprehensive evaluation of LLMs, we introduce the PhotoChat++ dataset, which includes enriched annotations (i.e., intent, triggering sentence, image description, and salient information). Furthermore, we present the gradient-free and extensible Decide, Describe, and Retrieve (DribeR) framework. With extensive experiments, we unlock the image-sharing capability of DribeR equipped with LLMs in zero-shot prompting, with ChatGPT achieving the best performance. Our findings also reveal the emergent image-sharing ability in LLMs under zero-shot conditions, validating the effectiveness of DribeR. We use this framework to demonstrate its practicality and effectiveness in two real-world scenarios: (1) human-bot interaction and (2) dataset augmentation. To the best of our knowledge, this is the first study to assess the image-sharing ability of various LLMs in a zero-shot setting. We make our source code and dataset publicly available at https://github.com/passing2961/DribeR.
- Abstract(参考訳): 本稿では,GPT-4 や LLaMA 2 などの大規模言語モデル (LLM) のゼロショット設定における画像共有機能について検討する。
LLMの包括的な評価を容易にするために、豊富なアノテーション(インテント、トリガー文、画像記述、有能な情報など)を含むPhotoChat++データセットを導入する。
さらに、勾配のない拡張可能な決定、記述、検索(DribeR)フレームワークを提案する。
広汎な実験により、ゼロショットプロンプトにおいてLDMを備えたDribeRのイメージ共有能力を解放し、ChatGPTが最高のパフォーマンスを実現した。
また,ゼロショット条件下でのLDMの創発的画像共有能力も明らかにし,DribeRの有効性を検証した。
この枠組みは,(1)人間とロボットの相互作用と(2)データセットの増大の2つの現実シナリオにおいて,その実用性と有効性を示すものである。
我々の知る限りでは、ゼロショット環境での様々なLLMの画像共有能力を評価するための最初の研究である。
ソースコードとデータセットをhttps://github.com/passing2961/DribeR.comで公開しています。
関連論文リスト
- What If We Recaption Billions of Web Images with LLaMA-3? [46.20091244944309]
我々はLLaMA-3搭載のLLaVA-1.5を微調整し、DataComp-1Bデータセットから13億枚の画像を取得する。
この拡張データセットであるRecap-DataComp-1Bは、先進的な視覚言語モデルのトレーニングにおいて大きなメリットがあることを確認した。
論文 参考訳(メタデータ) (2024-06-12T17:59:07Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。
本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。
拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文 参考訳(メタデータ) (2023-11-30T18:05:52Z) - Pink: Unveiling the Power of Referential Comprehension for Multi-modal
LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。
本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。
本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文 参考訳(メタデータ) (2023-10-01T05:53:15Z) - Analyzing the Efficacy of an LLM-Only Approach for Image-based Document
Question Answering [12.064056743478865]
文書質問応答タスクにおける視覚エンコーダと言語モデルの相対的寄与について検討する。
我々の包括的分析は6つの多様なベンチマークデータセットを含み、様々なスケールのLCMを利用している。
以上の結果から, LLMにのみ依存する戦略が, 最先端の成果と同等か, 近づいた結果をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2023-09-25T07:01:16Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。
このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文 参考訳(メタデータ) (2023-07-16T13:41:39Z) - I2MVFormer: Large Language Model Generated Multi-View Document
Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。
提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。
I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-05T14:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。