論文の概要: CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V
- arxiv url: http://arxiv.org/abs/2403.11468v2
- Date: Thu, 06 Feb 2025 12:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-07 15:30:40.20599
- Title: CollagePrompt: A Benchmark for Budget-Friendly Visual Recognition with GPT-4V
- Title(参考訳): CollagePrompt: GPT-4Vによる予算フレンドリーな視覚認識のためのベンチマーク
- Authors: Siyu Xu, Yunke Wang, Daochang Liu, Bo Du, Chang Xu,
- Abstract要約: GPT-4Vは、視覚認識タスクにおいて顕著な熟練性を示す。
GPT-4Vの推論に伴う金銭的コストは、その広範囲な使用にとって大きな障壁となる。
本稿では,複数の画像を単一の視覚的プロンプトにコラージュする,予算に優しいコラージュプロンプトタスクを提案する。
- 参考スコア(独自算出の注目度): 40.217684732196176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in generative AI have suggested that by taking visual prompts, GPT-4V can demonstrate significant proficiency in visual recognition tasks. Despite its impressive capabilities, the financial cost associated with GPT-4V's inference presents a substantial barrier to its wide use. To address this challenge, we propose a budget-friendly collage prompting task that collages multiple images into a single visual prompt and makes GPT-4V perform visual recognition on several images simultaneously, thereby reducing the cost. We collect a dataset of various collage prompts to assess its performance in GPT-4V's visual recognition. Our evaluations reveal several key findings: 1) Recognition accuracy varies with different positions in the collage. 2) Grouping images of the same category together leads to better visual recognition results. 3) Incorrect labels often come from adjacent images. These findings highlight the importance of image arrangement within collage prompt. To this end, we construct a benchmark called CollagePrompt, which offers a platform for designing collage prompt to achieve more cost-effective visual recognition with GPT-4V. A baseline method derived from genetic algorithms to optimize collage layouts is proposed and two metrics are introduced to measure the efficiency of the optimized collage prompt. Our benchmark enables researchers to better optimize collage prompts, thus making GPT-4V more cost-effective in visual recognition. The code and data are available at this project page https://collageprompting.github.io/.
- Abstract(参考訳): 生成AIの最近の進歩は、視覚的プロンプトを取ることで、GPT-4Vが視覚的認識タスクに顕著な習熟性を示すことを示唆している。
優れた能力にもかかわらず、GPT-4Vの推論に伴う金銭的コストは、その広範囲な使用にとって大きな障壁となる。
この課題に対処するために、複数の画像を単一の視覚的プロンプトにコラージュし、GPT-4Vを複数の画像上で同時に視覚的認識させる、予算に優しいコラージュプロンプトタスクを提案する。
我々は、GPT-4Vの視覚認識において、様々なコラージュプロンプトのデータセットを収集し、その性能を評価する。
私たちの評価では、いくつかの重要な発見が示されています。
1)コラージュにおける認識精度は,コラージュ内の位置によって異なる。
2) 同一カテゴリの画像をグループ化することで, より優れた視覚認識結果が得られる。
3) 誤ったラベルは、しばしば隣接した画像から来る。
これらの知見は,コラージュプロンプト内の画像アレンジメントの重要性を浮き彫りにした。
この目的のために、我々はコラージュプロンプトを設計し、GPT-4Vでよりコスト効率の良い視覚認識を実現するためのプラットフォームであるColllagePromptというベンチマークを構築した。
遺伝的アルゴリズムを用いてコラージュレイアウトを最適化するベースライン手法を提案し,最適化コラージュプロンプトの効率を測定するために2つの指標を導入した。
我々のベンチマークにより、研究者はコラージュプロンプトを最適化し、GPT-4Vが視覚認識においてより費用対効果を高めることができる。
コードとデータはプロジェクトページ https://collageprompting.github.io/ で公開されている。
関連論文リスト
- Picking the Cream of the Crop: Visual-Centric Data Selection with Collaborative Agents [62.616106562146776]
textbfVisual-Centric textbfSelection approach by textbfAgents Collaboration (ViSA)を提案する。
提案手法は,(1)視覚エージェントの協調による画像情報定量化手法により,リッチな視覚情報を持つ画像を選択する方法,(2)高品質な画像に関連する高品質な画像を選択する視覚中心の指示品質評価手法からなる。
論文 参考訳(メタデータ) (2025-02-27T09:37:30Z) - LoR-VP: Low-Rank Visual Prompting for Efficient Vision Model Adaptation [41.77434289193232]
視覚プロンプトのための低ランク行列乗算を導入した新しい視覚プロンプト設計法(LoR-VP)を提案する。
LoR-VPは、画像ピクセルの行と列をまたいだ共有およびパッチ固有の情報を可能にする。
実験では、最先端の視覚的プロンプト法と比較して、性能と効率の両面で大きな改善が示されている。
論文 参考訳(メタデータ) (2025-02-02T20:10:48Z) - Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - TAI++: Text as Image for Multi-Label Image Classification by Co-Learning Transferable Prompt [15.259819430801402]
この問題を解決するために,暗黙的な視覚的プロンプトチューニングのための擬似視覚プロンプト(PVP)モジュールを提案する。
具体的には、まず各カテゴリの擬似視覚的プロンプトを学習し、事前学習された視覚言語モデルのよく整合した空間によって多様な視覚的知識をマイニングする。
VOC2007, MS-COCO, NUSWIDEデータセットによる実験結果から, 本手法がSOTA(State-of-the-art(SOTA)法を超えることを示す。
論文 参考訳(メタデータ) (2024-05-11T06:11:42Z) - Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。
これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。
本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文 参考訳(メタデータ) (2024-04-06T05:59:02Z) - GPT4Vis: What Can GPT-4 Do for Zero-shot Visual Recognition? [82.40761196684524]
本稿では,ゼロショット視覚認識タスクにおけるGPT-4の言語的・視覚的能力の評価に焦点を当てる。
我々は、画像、ビデオ、点群にわたるGPT-4の性能を評価するための広範な実験を行った。
言語記述が充実したGPT-4はゼロショット認識を著しく改善した。
論文 参考訳(メタデータ) (2023-11-27T11:29:10Z) - CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。
私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。
我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文 参考訳(メタデータ) (2023-11-07T12:36:20Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - LoGoPrompt: Synthetic Text Images Can Be Good Visual Prompts for
Vision-Language Models [28.983503845298824]
合成テキスト画像は視覚言語モデルにとって良い視覚的プロンプトであることを示す。
視覚的プロンプト選択に分類対象を再構成する LoGoPrompt を提案する。
本手法は,数ショット学習,ベース・ツー・ニュージェネリゼーション,ドメイン・ジェネリゼーションにおいて,最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-09-03T12:23:33Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - LLaVAR: Enhanced Visual Instruction Tuning for Text-Rich Image
Understanding [85.39419609430453]
この作業は、テキストリッチなイメージで現在のビジュアルインストラクションチューニングパイプラインを強化する。
まず、公開されたOCRツールを使用して、LAIONデータセットから422Kテキストリッチイメージの結果を収集します。
我々は、認識されたテキストと画像キャプションを持つテキストのみのGPT-4に16Kの会話を生成するよう促す。
論文 参考訳(メタデータ) (2023-06-29T17:08:16Z) - Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。
オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。
提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文 参考訳(メタデータ) (2023-03-30T17:37:14Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Texts as Images in Prompt Tuning for Multi-Label Image Recognition [70.9310322461598]
我々は、画像テキストのコントラスト学習により、テキストを画像として扱うことができ、即時チューニングやTaIプロンプトの導入が可能であることを主張する。
特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。
提案したTaI-DPTは,複数ベンチマークで0ショットCLIPよりも高い性能を示した。
論文 参考訳(メタデータ) (2022-11-23T07:00:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。