Fugu-MT 論文翻訳(概要): Large Language Models can Share Images, Too!

論文の概要: Large Language Models can Share Images, Too!

arxiv url: http://arxiv.org/abs/2310.14804v1
Date: Mon, 23 Oct 2023 10:59:21 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 20:48:56.400640
Title: Large Language Models can Share Images, Too!
Title（参考訳）: 大きな言語モデルでも画像を共有できます!
Authors: Young-Jun Lee, Jonghwan Hyeon, Ho-Jin Choi
Abstract要約: 本稿では,InstructGPT, ChatGPT, GPT-4などの大規模言語モデルの画像共有機能について,視覚基礎モデルの助けを借りずにゼロショットで検討する。本稿では,LLMが潜在的画像共有ターンを予測し,関連する画像記述を生成するための2段階のフレームワークを提案する。
参考スコア（独自算出の注目度）: 7.25130576615102
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper explores the image-sharing capability of Large Language Models (LLMs), such as InstructGPT, ChatGPT, and GPT-4, in a zero-shot setting, without the help of visual foundation models. Inspired by the two-stage process of image-sharing in human dialogues, we propose a two-stage framework that allows LLMs to predict potential image-sharing turns and generate related image descriptions using our effective restriction-based prompt template. With extensive experiments, we unlock the \textit{image-sharing} capability of LLMs in zero-shot prompting, with GPT-4 achieving the best performance. Additionally, we uncover the emergent \textit{image-sharing} ability in zero-shot prompting, demonstrating the effectiveness of restriction-based prompts in both stages of our framework. Based on this framework, we augment the PhotoChat dataset with images generated by Stable Diffusion at predicted turns, namely PhotoChat++. To our knowledge, this is the first study to assess the image-sharing ability of LLMs in a zero-shot setting without visual foundation models. The source code and the dataset will be released after publication.
Abstract（参考訳）: 本稿では,インストラクタGPT,ChatGPT,GPT-4などの大規模言語モデル(LLM)の画像共有機能について,視覚基礎モデルの助けを借りずにゼロショット環境で検討する。人間の対話における画像共有の2段階プロセスにインスパイアされ、LLMが潜在的な画像共有のターンを予測し、有効な制約ベースのプロンプトテンプレートを用いて関連画像記述を生成するための2段階フレームワークを提案する。広汎な実験により、ゼロショットプロンプトにおけるLDMの「textit{image-shaup}」機能を解き、GPT-4が最高のパフォーマンスを達成する。さらに,ゼロショットプロンプトにおける創発的な \textit{image-sharing} 機能を明らかにし,フレームワークの両段階における制約ベースのプロンプトの有効性を示す。このフレームワークに基づいて、予測ターン、すなわちPhotoChat++でStable Diffusionによって生成された画像でPhotoChatデータセットを拡張する。我々の知る限り、視覚基礎モデルなしでゼロショット設定でLLMのイメージ共有能力を評価するための最初の研究である。ソースコードとデータセットは公開後にリリースされる。

関連論文リスト

Multi-MLLM Knowledge Distillation for Out-of-Context News Detection [17.41734069411864]
マルチモーダル・アウト・オブ・コンテクスト・ニュース(Multimodal out-of-context news)は、画像が元の文脈以外で使用される誤報の一種である。本稿では,この知識を学生MLLMに伝達するための2段階の知識蒸留フレームワークを提案する。ステージ1では、すべてのトレーニングデータを用いて、LoRAの微調整を学生モデルに適用する。ステージ2では、教師の予測が矛盾するデータポイント上で、LoRAファインタニングとDPOの両方を用いて、学生モデルをさらに微調整する。
論文参考訳（メタデータ） (2025-05-28T16:03:41Z)
FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文参考訳（メタデータ） (2024-12-04T18:56:04Z)
What If We Recaption Billions of Web Images with LLaMA-3? [46.20091244944309]
我々はLLaMA-3搭載のLLaVA-1.5を微調整し、DataComp-1Bデータセットから13億枚の画像を取得する。この拡張データセットであるRecap-DataComp-1Bは、先進的な視覚言語モデルのトレーニングにおいて大きなメリットがあることを確認した。
論文参考訳（メタデータ） (2024-06-12T17:59:07Z)
CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文参考訳（メタデータ） (2023-12-04T05:13:59Z)
MLLMs-Augmented Visual-Language Representation Learning [70.5293060238008]
MLLM(Multi-modal Large Language Models)が視覚言語表現学習を向上させることを実証した。本手法は単純で,MLLMを用いて画像毎に複数のキャプションを拡張できる。拡張キャプションの品質と可用性を維持するために,テキストシーリングを提案する。
論文参考訳（メタデータ） (2023-11-30T18:05:52Z)
Pink: Unveiling the Power of Referential Comprehension for Multi-modal LLMs [49.88461345825586]
本稿では,MLLMの微細な画像理解能力を高めるための新しい枠組みを提案する。本稿では,既存のデータセットのアノテーションを活用して,命令チューニングデータセットを低コストで構築する手法を提案する。本研究では,Qwen-VLよりも5.2%精度が向上し,Kosmos-2の精度が24.7%向上したことを示す。
論文参考訳（メタデータ） (2023-10-01T05:53:15Z)
Analyzing the Efficacy of an LLM-Only Approach for Image-based Document Question Answering [12.064056743478865]
文書質問応答タスクにおける視覚エンコーダと言語モデルの相対的寄与について検討する。我々の包括的分析は6つの多様なベンチマークデータセットを含み、様々なスケールのLCMを利用している。以上の結果から, LLMにのみ依存する戦略が, 最先端の成果と同等か, 近づいた結果をもたらすことが明らかとなった。
論文参考訳（メタデータ） (2023-09-25T07:01:16Z)
BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。 1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文参考訳（メタデータ） (2023-07-17T15:51:47Z)
Planting a SEED of Vision in Large Language Model [73.17530130368053]
このSEEDは,大規模言語モデル(LLM)とSEEとDrawを同時に実現する,精巧な画像トークンである。このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。
論文参考訳（メタデータ） (2023-07-16T13:41:39Z)
I2MVFormer: Large Language Model Generated Multi-View Document Supervision for Zero-Shot Image Classification [108.83932812826521]
Webスケールのテキストでトレーニングされた大規模言語モデル(LLM)は、学習した知識をさまざまなタスクに再利用する素晴らしい能力を示している。提案するモデルであるI2MVFormerは,これらのクラスビューを用いたゼロショット画像分類のためのマルチビューセマンティック埋め込みを学習する。 I2MVFormerは、教師なしセマンティック埋め込みを備えたゼロショット画像分類のための3つの公開ベンチマークデータセットに対して、最先端の新たなデータセットを確立する。
論文参考訳（メタデータ） (2022-12-05T14:11:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。