論文の概要: CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V
- arxiv url: http://arxiv.org/abs/2403.11468v2
- Date: Thu, 06 Feb 2025 12:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 17:44:15.657147
- Title: CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V
- Title(参考訳): CollagePrompt: GPT-4Vによる予算フレンドリーな視覚認識のためのベンチマーク
- Authors: Siyu Xu, Yunke Wang, Daochang Liu, Bo Du, Chang Xu,
- Abstract要約: GPT-4Vは、視覚認識タスクにおいて顕著な熟練性を示す。
GPT-4Vの推論に伴う金銭的コストは、その広範囲な使用にとって大きな障壁となる。
本稿では,複数の画像を単一の視覚的プロンプトにコラージュする,予算に優しいコラージュプロンプトタスクを提案する。
- 参考スコア(独自算出の注目度): 40.217684732196176
- License:
- Abstract: Recent advancements in generative AI have suggested that by taking visual prompts, GPT-4V can demonstrate significant proficiency in visual recognition tasks. Despite its impressive capabilities, the financial cost associated with GPT-4V's inference presents a substantial barrier to its wide use. To address this challenge, we propose a budget-friendly collage prompting task that collages multiple images into a single visual prompt and makes GPT-4V perform visual recognition on several images simultaneously, thereby reducing the cost. We collect a dataset of various collage prompts to assess its performance in GPT-4V's visual recognition. Our evaluations reveal several key findings: 1) Recognition accuracy varies with different positions in the collage. 2) Grouping images of the same category together leads to better visual recognition results. 3) Incorrect labels often come from adjacent images. These findings highlight the importance of image arrangement within collage prompt. To this end, we construct a benchmark called CollagePrompt, which offers a platform for designing collage prompt to achieve more cost-effective visual recognition with GPT-4V. A baseline method derived from genetic algorithms to optimize collage layouts is proposed and two metrics are introduced to measure the efficiency of the optimized collage prompt. Our benchmark enables researchers to better optimize collage prompts, thus making GPT-4V more cost-effective in visual recognition. The code and data are available at this project page https://collageprompting.github.io/.
- Abstract(参考訳): 生成AIの最近の進歩は、視覚的プロンプトを取ることで、GPT-4Vが視覚的認識タスクに顕著な習熟性を示すことを示唆している。
優れた能力にもかかわらず、GPT-4Vの推論に伴う金銭的コストは、その広範囲な使用にとって大きな障壁となる。
この課題に対処するために、複数の画像を単一の視覚的プロンプトにコラージュし、GPT-4Vを複数の画像上で同時に視覚的認識させる、予算に優しいコラージュプロンプトタスクを提案する。
我々は、GPT-4Vの視覚認識において、様々なコラージュプロンプトのデータセットを収集し、その性能を評価する。
私たちの評価では、いくつかの重要な発見が示されています。
1)コラージュにおける認識精度は,コラージュ内の位置によって異なる。
2) 同一カテゴリの画像をグループ化することで, より優れた視覚認識結果が得られる。
3) 誤ったラベルは、しばしば隣接した画像から来る。
これらの知見は,コラージュプロンプト内の画像アレンジメントの重要性を浮き彫りにした。
この目的のために、我々はコラージュプロンプトを設計し、GPT-4Vでよりコスト効率の良い視覚認識を実現するためのプラットフォームであるColllagePromptというベンチマークを構築した。
遺伝的アルゴリズムを用いてコラージュレイアウトを最適化するベースライン手法を提案し,最適化コラージュプロンプトの効率を測定するために2つの指標を導入した。
我々のベンチマークにより、研究者はコラージュプロンプトを最適化し、GPT-4Vが視覚認識においてより費用対効果を高めることができる。
コードとデータはプロジェクトページ https://collageprompting.github.io/ で公開されている。
関連論文リスト
- LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation [41.77434289193232]
視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。
LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。
実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
論文 参考訳(メタデータ) (2025-02-02T20:10:48Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。
これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。
本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文 参考訳(メタデータ) (2024-04-06T05:59:02Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z) - Unpaired Image Captioning by Image-level Weakly-Supervised Visual
Concept Recognition [83.93422034664184]
未ペア画像キャプション(UIC)とは、訓練段階で画像キャプチャペアを使わずに画像を記述することである。
既存の研究の多くは、既成のアルゴリズムを使って視覚的概念を得る。
画像レベルラベルを用いたコスト効率の高いUICを実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-07T08:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。