論文の概要: Collage Prompting: Budget-Friendly Visual Recognition with GPT-4V
- arxiv url: http://arxiv.org/abs/2403.11468v1
- Date: Mon, 18 Mar 2024 04:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 16:36:25.779982
- Title: Collage Prompting: Budget-Friendly Visual Recognition with GPT-4V
- Title(参考訳): Collage Prompting: GPT-4Vによる予算フレンドリーな視覚認識
- Authors: Siyu Xu, Yunke Wang, Daochang Liu, Chang Xu,
- Abstract要約: GPT-4Vは画像認識タスクにおいて顕著な熟練性を示す。
しかし、GPT-4Vの推論に伴う金銭的コストは、広く使われる上で大きな障壁となる。
予算に優しいプロンプトアプローチであるColllage Promptingを導入し、複数の画像を単一の視覚入力に誘導する。
- 参考スコア(独自算出の注目度): 19.504619970405205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative AI have suggested that by taking visual prompt, GPT-4V can demonstrate significant proficiency in image recognition task. Despite its impressive capabilities, the financial cost associated with GPT-4V's inference presents a substantial barrier for its wide use. To address this challenge, our work introduces Collage Prompting, a budget-friendly prompting approach that concatenates multiple images into a single visual input. With collage prompt, GPT-4V is able to perform image recognition on several images simultaneously. Based on the observation that the accuracy of GPT-4V's image recognition varies significantly with the order of images within the collage prompt, our method further learns to optimize the arrangement of images for maximum recognition accuracy. A graph predictor is trained to indicate the accuracy of each collage prompt, then we propose an optimization method to navigate the search space of possible image arrangements. Experiment results across various datasets demonstrate the cost-efficiency score of collage prompt is much larger than standard prompt. Additionally, collage prompt with learned arrangement achieves clearly better accuracy than collage prompt with random arrangement in GPT-4V's visual recognition.
- Abstract(参考訳): 生成型AIの最近の進歩は、視覚的プロンプトをとることで、GPT-4Vは画像認識タスクにおいてかなりの習熟性を示すことを示唆している。
優れた性能にもかかわらず、GPT-4Vの推論に伴う金銭的コストは、広く使われるための大きな障壁となる。
この課題に対処するために、我々の研究は、複数の画像を単一の視覚的な入力にまとめる、予算に優しいプロンプトアプローチであるColllage Promptingを導入しました。
コラージュプロンプトにより、GPT-4Vは複数の画像に対して同時に画像認識を行うことができる。
GPT-4Vの画像認識の精度は、コラージュプロンプト内の画像の順序によって大きく異なるという観測に基づいて、この手法はさらに、画像の配置を最大認識精度に最適化することを学ぶ。
グラフ予測器は,各コラージュプロンプトの精度を示すために訓練され,画像アレンジメントの探索空間をナビゲートする最適化手法を提案する。
各種データセットに対する実験結果は、コラージュプロンプトのコスト効率スコアが標準プロンプトよりもはるかに大きいことを示す。
さらに、学習配列によるコラージュプロンプトは、GPT-4Vの視覚認識におけるランダムなアレンジメントによるコラージュプロンプトよりも明らかに精度が高い。
関連論文リスト
- LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation [41.77434289193232]
視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。
LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。
実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
論文 参考訳(メタデータ) (2025-02-02T20:10:48Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。
これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。
本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文 参考訳(メタデータ) (2024-04-06T05:59:02Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。