Fugu-MT 論文翻訳(概要): Ranking-aware adapter for text-driven image ordering with CLIP

論文の概要: Ranking-aware adapter for text-driven image ordering with CLIP

arxiv url: http://arxiv.org/abs/2412.06760v3
Date: Sat, 08 Feb 2025 03:25:39 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-11 16:44:24.617856
Title: Ranking-aware adapter for text-driven image ordering with CLIP
Title（参考訳）: CLIPを用いたテキスト駆動画像注文用ランキングアウェアアダプタ
Authors: Wei-Hsiang Yu, Yen-Yu Lin, Ming-Hsuan Yang, Yi-Hsuan Tsai,
Abstract要約: 本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
参考スコア（独自算出の注目度）: 76.80965830448781
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in vision-language models (VLMs) have made significant progress in downstream tasks that require quantitative concepts such as facial age estimation and image quality assessment, enabling VLMs to explore applications like image ranking and retrieval. However, existing studies typically focus on the reasoning based on a single image and heavily depend on text prompting, limiting their ability to learn comprehensive understanding from multiple images. To address this, we propose an effective yet efficient approach that reframes the CLIP model into a learning-to-rank task and introduces a lightweight adapter to augment CLIP for text-guided image ranking. Specifically, our approach incorporates learnable prompts to adapt to new instructions for ranking purposes and an auxiliary branch with ranking-aware attention, leveraging text-conditioned visual differences for additional supervision in image ranking. Our ranking-aware adapter consistently outperforms fine-tuned CLIPs on various tasks and achieves competitive results compared to state-of-the-art models designed for specific tasks like facial age estimation and image quality assessment. Overall, our approach primarily focuses on ranking images with a single instruction, which provides a natural and generalized way of learning from visual differences across images, bypassing the need for extensive text prompts tailored to individual tasks. Code is available: github.com/uynaes/RankingAwareCLIP.
Abstract（参考訳）: 近年の視覚言語モデル(VLM)の進歩により、顔の年齢推定や画質評価といった定量的概念を必要とする下流タスクが大幅に進歩し、VLMは画像のランク付けや検索などの応用を探索できるようになった。しかし、既存の研究は1つの画像に基づく推論に重点を置いており、テキストのプロンプトに大きく依存しており、複数の画像から包括的な理解を学習する能力を制限する。そこで本研究では,CLIPモデルを学習からランクまでのタスクに再構成し,テキスト誘導画像ランキングのためのCLIPを拡張するための軽量なアダプタを提案する。具体的には、画像のランク付けに新たな指示に適応するための学習可能なプロンプトと、テキスト条件の視覚的差異を活用して、画像のランク付けのさらなる監督を行うための補助的ブランチを組み込んだ。我々のランキングアウェアアダプタは、さまざまなタスクにおいて微調整されたCLIPよりも一貫して優れており、顔の年齢推定や画像品質評価といった特定のタスクのために設計された最先端のモデルと比較して、競合的な結果が得られる。本手法は,画像間の視覚的差異から学習する自然で汎用的な方法として,個々のタスクに適した広範囲なテキストプロンプトの必要性を回避し,画像のランク付けに主眼を置いている。 github.com/uynaes/RankingAwareCLIP。

関連論文リスト

CLIP-DQA: Blindly Evaluating Dehazed Images from Global and Local Perspectives Using CLIP [19.80268944768578]
Blind dehazed Image Quality Assessment (BDQA) は、参照情報なしでデハズド画像の視覚的品質を正確に予測することを目的としている。本稿では,BDQAタスクに対して,大規模画像テキストペア上で事前学習したコントラスト言語画像事前学習(CLIP)を適用することを提案する。提案手法はCLIP-DQAと呼ばれ,既存のBDQA手法よりも高精度な品質予測を実現する。
論文参考訳（メタデータ） (2025-02-03T14:12:25Z)
Advancing Myopia To Holism: Fully Contrastive Language-Image Pre-training [30.071860810401933]
本稿では,対照的な言語イメージ事前学習(CLIP)を1つの新しい包括的パラダイムに発展させる。画像からテキストへのキャプションを用いて、複数の視点、粒度、階層から各画像のマルチテキストを生成する。私たちの総合的なCLIPは、画像テキスト検索、オープン語彙分類、濃密な視覚タスクなど、既存のCLIPよりも大幅に優れています。
論文参考訳（メタデータ） (2024-11-30T11:27:58Z)
Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文参考訳（メタデータ） (2024-06-24T13:45:31Z)
Enhancing Image Retrieval : A Comprehensive Study on Photo Search using the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文参考訳（メタデータ） (2024-01-24T17:35:38Z)
CLIP Guided Image-perceptive Prompt Learning for Image Enhancement [15.40368082025006]
コントラスト言語-画像事前学習(CLIP)ガイドプロンプト学習を提案する。私たちは、CLIPモデルを用いて、オリジナル画像とターゲット画像とを区別するためのイメージ知覚プロンプトを学習する。我々は,3種類のLUTの重みを拡張ネットワークとして予測するために,単純なベースラインを組み込むことにより,非常に単純なネットワークを導入する。
論文参考訳（メタデータ） (2023-11-07T12:36:20Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
Composed Image Retrieval using Contrastive Learning and Task-oriented CLIP-based Features [32.138956674478116]
参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
論文参考訳（メタデータ） (2023-08-22T15:03:16Z)
Iterative Prompt Learning for Unsupervised Backlit Image Enhancement [86.90993077000789]
そこで本研究では,CLIP-LITと略称される,非教師なしのバックライト画像強調手法を提案する。オープンワールドのCLIPはバックライト画像と well-lit 画像の区別に有効であることを示す。提案手法は,学習フレームワークの更新と,学習結果を視覚的に満足するまでのネットワークの強化を交互に行う。
論文参考訳（メタデータ） (2023-03-30T17:37:14Z)
SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。 SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。 13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文参考訳（メタデータ） (2022-11-28T14:58:15Z)
Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文参考訳（メタデータ） (2022-10-17T17:57:46Z)
Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文参考訳（メタデータ） (2022-05-26T03:13:43Z)
CLIP-Adapter: Better Vision-Language Models with Feature Adapters [79.52844563138493]
即時チューニング以外に、より良い視覚言語モデルを実現するための代替経路があることが示される。本稿では,CLIP-Adapterを提案する。様々な視覚的分類タスクの実験および広範囲なアブレーション研究は、我々のアプローチの有効性を実証している。
論文参考訳（メタデータ） (2021-10-09T11:39:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。