論文の概要: Don't Judge Before You CLIP: A Unified Approach for Perceptual Tasks
- arxiv url: http://arxiv.org/abs/2503.13260v1
- Date: Mon, 17 Mar 2025 15:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:30:06.760623
- Title: Don't Judge Before You CLIP: A Unified Approach for Perceptual Tasks
- Title(参考訳): CLIPの前に判断するな - 知覚的タスクに対する統一的なアプローチ
- Authors: Amit Zalcher, Navve Wasserman, Roman Beliy, Oliver Heinimann, Michal Irani,
- Abstract要約: 本稿では,CLIPを先行として活用する複数の知覚タスクを解決するための統合フレームワークを提案する。
私たちのアプローチは、CLIPが人間の判断とよく相関していることを示す最近の認知的知見に基づいている。
提案手法は, (i) 画像記憶可能性予測, (ii) 非参照画像品質評価, (iii) 視覚的感情分析の3つの課題に対して評価する。
- 参考スコア(独自算出の注目度): 9.43938492952392
- License:
- Abstract: Visual perceptual tasks aim to predict human judgment of images (e.g., emotions invoked by images, image quality assessment). Unlike objective tasks such as object/scene recognition, perceptual tasks rely on subjective human assessments, making its data-labeling difficult. The scarcity of such human-annotated data results in small datasets leading to poor generalization. Typically, specialized models were designed for each perceptual task, tailored to its unique characteristics and its own training dataset. We propose a unified architectural framework for solving multiple different perceptual tasks leveraging CLIP as a prior. Our approach is based on recent cognitive findings which indicate that CLIP correlates well with human judgment. While CLIP was explicitly trained to align images and text, it implicitly also learned human inclinations. We attribute this to the inclusion of human-written image captions in CLIP's training data, which contain not only factual image descriptions, but inevitably also human sentiments and emotions. This makes CLIP a particularly strong prior for perceptual tasks. Accordingly, we suggest that minimal adaptation of CLIP suffices for solving a variety of perceptual tasks. Our simple unified framework employs a lightweight adaptation to fine-tune CLIP to each task, without requiring any task-specific architectural changes. We evaluate our approach on three tasks: (i) Image Memorability Prediction, (ii) No-reference Image Quality Assessment, and (iii) Visual Emotion Analysis. Our model achieves state-of-the-art results on all three tasks, while demonstrating improved generalization across different datasets.
- Abstract(参考訳): 視覚的知覚タスクは、画像の人間の判断(例えば、画像によって誘発される感情、画像の品質評価)を予測することを目的としている。
オブジェクト/シーン認識のような客観的なタスクとは異なり、知覚的タスクは主観的な人間の評価に依存しており、データのラベル付けを困難にしている。
このような注釈付きデータの不足により、小さなデータセットが一般化が不十分になる。
通常、特殊モデルは知覚タスクごとに設計され、固有の特徴と独自のトレーニングデータセットに合わせて調整される。
本稿では,CLIPを先行として活用する複数の知覚タスクを解決するための統一アーキテクチャフレームワークを提案する。
私たちのアプローチは、CLIPが人間の判断とよく相関していることを示す最近の認知的知見に基づいている。
CLIPは画像とテキストのアライメントを明示的にトレーニングしたが、暗黙的に人間の傾向も学習した。
これは、CLIPのトレーニングデータに人書き画像キャプションが組み込まれているためであり、実際の画像記述だけでなく、必然的に人間の感情や感情も含んでいる。
これにより、CLIPは特に知覚タスクの先行性が高い。
そこで本研究では,CLIPの適応が最小限に抑えられ,様々な知覚課題の解決に有効であることが示唆された。
私たちの単純な統合フレームワークでは、タスク固有のアーキテクチャ変更を必要とせずに、各タスクに微調整のCLIPを軽量に適応しています。
私たちは3つの課題に対するアプローチを評価します。
(i)画像の記憶可能性予測
(二)非参照画像品質評価、及び
(三)視覚的感情分析
本モデルでは,3つのタスクすべてに対して,最新の結果が得られるとともに,データセット間の一般化の改善を実証する。
関連論文リスト
- Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - PLIP: Language-Image Pre-training for Person Representation Learning [51.348303233290025]
個人表現学習のための新しい言語画像事前学習フレームワークPLIPを提案する。
このフレームワークを実装するために,SynTH-PEDESという画像テキストペアを用いた大規模人物データセットを構築した。
PLIPはこれらのタスクの既存のメソッドを大幅に改善するだけでなく、ゼロショットやドメインの一般化設定でも優れた機能を示している。
論文 参考訳(メタデータ) (2023-05-15T06:49:00Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Learning Customized Visual Models with Retrieval-Augmented Knowledge [104.05456849611895]
我々は、ターゲットドメイン用にカスタマイズされたビジュアルモデルを構築するための、関連するWeb知識を取得するためのフレームワークであるREACTを提案する。
我々は、Webスケールデータベースから最も関連性の高い画像テキストペアを外部知識として検索し、元の重みをすべて凍結しながら、新しいモジュール化されたブロックをトレーニングするだけで、モデルをカスタマイズすることを提案する。
REACTの有効性は、ゼロ、少数、フルショット設定を含む分類、検索、検出、セグメンテーションタスクに関する広範な実験を通じて実証される。
論文 参考訳(メタデータ) (2023-01-17T18:59:06Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - CLIP-Art: Contrastive Pre-training for Fine-Grained Art Classification [7.6146285961466]
私たちは、CLIP(Contrastive Language- Image Pre-Training)を使用して、さまざまなアートイメージとテキスト記述ペアでニューラルネットワークをトレーニングする最初の方法の1つです。
本手法は,インスタンス検索と細粒度アートワーク属性認識という2つの課題を解決することを目的としている。
このベンチマークでは、自己スーパービジョンのみを使用して、競争結果を達成しました。
論文 参考訳(メタデータ) (2022-04-29T17:17:24Z) - Learning to Compose Diversified Prompts for Image Emotion Classification [5.586293129420233]
Contrastive Language-Image Pre-Training (CLIP) は、事前学習された視覚言語モデルの最新の生まれ変わりを表す。
CLIPは最近、Visual Question Answeringのような幅広い下流の視覚言語タスクに優れたパワーを誇示している。
画像感情分類にCLIPをどのように効果的に適用できるかを示す一般的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-26T14:31:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。