論文の概要: Towards Unified Benchmark and Models for Multi-Modal Perceptual Metrics
- arxiv url: http://arxiv.org/abs/2412.10594v1
- Date: Fri, 13 Dec 2024 22:38:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:00:04.001130
- Title: Towards Unified Benchmark and Models for Multi-Modal Perceptual Metrics
- Title(参考訳): マルチモーダル知覚メトリクスの統一ベンチマークとモデルに向けて
- Authors: Sara Ghazanfari, Siddharth Garg, Nicolas Flammarion, Prashanth Krishnamurthy, Farshad Khorrami, Francesco Croce,
- Abstract要約: CLIPや大規模マルチモーダルモデル(LMM)などの汎用視覚言語モデルは、ゼロショット知覚メトリクスとして適用することができる。
提案するUniSim-Benchは、7つのマルチモーダルな知覚的類似性タスクと合計25のデータセットを包含するベンチマークである。
我々の評価では、汎用モデルは平均的に合理的に機能するが、個々のタスクの特化モデルに遅れが生じることが多い。
- 参考スコア(独自算出の注目度): 37.86612817818566
- License:
- Abstract: Human perception of similarity across uni- and multimodal inputs is highly complex, making it challenging to develop automated metrics that accurately mimic it. General purpose vision-language models, such as CLIP and large multi-modal models (LMMs), can be applied as zero-shot perceptual metrics, and several recent works have developed models specialized in narrow perceptual tasks. However, the extent to which existing perceptual metrics align with human perception remains unclear. To investigate this question, we introduce UniSim-Bench, a benchmark encompassing 7 multi-modal perceptual similarity tasks, with a total of 25 datasets. Our evaluation reveals that while general-purpose models perform reasonably well on average, they often lag behind specialized models on individual tasks. Conversely, metrics fine-tuned for specific tasks fail to generalize well to unseen, though related, tasks. As a first step towards a unified multi-task perceptual similarity metric, we fine-tune both encoder-based and generative vision-language models on a subset of the UniSim-Bench tasks. This approach yields the highest average performance, and in some cases, even surpasses taskspecific models. Nevertheless, these models still struggle with generalization to unseen tasks, highlighting the ongoing challenge of learning a robust, unified perceptual similarity metric capable of capturing the human notion of similarity. The code and models are available at https://github.com/SaraGhazanfari/UniSim.
- Abstract(参考訳): ユニモーダル入力とマルチモーダル入力の類似性に対する人間の認識は非常に複雑であり、それを正確に模倣する自動メトリクスを開発することは困難である。
CLIPや大規模マルチモーダルモデル(LMM)のような汎用視覚言語モデルは、ゼロショット知覚の指標として適用でき、近年では狭義の知覚タスクに特化したモデルも開発されている。
しかし、既存の知覚的指標が人間の知覚とどの程度一致しているかはいまだ不明である。
この問題を調査するために、UniSim-Benchという、7つのマルチモーダルな知覚的類似性タスクを包含するベンチマークを導入し、合計25のデータセットについて述べる。
我々の評価では、汎用モデルは平均的に合理的に機能するが、個々のタスクの特化モデルに遅れが生じることが多い。
逆に、特定のタスクのために微調整されたメトリクスは、見えないが関連するタスクにうまく一般化できない。
マルチタスクの知覚的類似度尺度の統一化に向けた第一歩として、UniSim-Benchタスクのサブセット上でエンコーダベースおよび生成的視覚言語モデルの両方を微調整する。
このアプローチは最も平均的なパフォーマンスをもたらし、場合によってはタスク固有のモデルを超えます。
にもかかわらず、これらのモデルは、人間の類似性の概念を捉えることができる堅牢で統一された知覚的類似度メートル法を学ぶことの継続的な課題を浮き彫りにして、目に見えないタスクへの一般化に苦慮している。
コードとモデルはhttps://github.com/SaraGhazanfari/UniSimで入手できる。
関連論文リスト
- AutoTask: Task Aware Multi-Faceted Single Model for Multi-Task Ads Relevance [2.380819994407948]
本稿では,タスク認識機能の組み合わせとタスク間相互作用モデリングを行う,新しい多面的アテンションモデルを提案する。
本手法は,特徴量とタスク次元の両面における自己回帰的注意を伴う「言語」モデリングとして特徴組合せ問題を定式化したものである。
論文 参考訳(メタデータ) (2024-07-09T05:13:45Z) - XTrack: Multimodal Training Boosts RGB-X Video Object Trackers [88.72203975896558]
マルチモーダルセンシングから得られる知識を効果的に共有することが重要である。
異なるモダリティにまたがる類似のサンプルは、他のものよりも多くの知識を共有できる。
提案手法は,現在のSOTAよりも平均+3%精度が向上したRGB-Xトラッカーである。
論文 参考訳(メタデータ) (2024-05-28T03:00:58Z) - An Efficient General-Purpose Modular Vision Model via Multi-Task
Heterogeneous Training [79.78201886156513]
本稿では、複数の視覚タスクを実行でき、他の下流タスクに効率的に適応できるモデルを提案する。
提案手法は,単一タスク状態モデルに匹敵する結果を達成し,下流タスクの強力な一般化を実証する。
論文 参考訳(メタデータ) (2023-06-29T17:59:57Z) - Exposing and Addressing Cross-Task Inconsistency in Unified
Vision-Language Models [80.23791222509644]
一貫性のないAIモデルは、人間のユーザーによって不安定で信頼できないと見なされている。
最先端のビジョン言語モデルは、タスク間の驚くほど高い一貫性のない振る舞いに悩まされている。
本稿では,大規模で自動生成されるクロスタスクコントラスト集合上で計算されたランク相関に基づく補助訓練目標を提案する。
論文 参考訳(メタデータ) (2023-03-28T16:57:12Z) - Uni-Perceiver v2: A Generalist Model for Large-Scale Vision and
Vision-Language Tasks [86.66733026149892]
大規模ビジョンと視覚非依存タスクを扱える最初のジェネラリストモデルであるUni-Perceiver v2を提案する。
具体的には、画像は一般領域の提案としてエンコードされ、テキストはTransformerベースの言語モデルを介してエンコードされる。
Uni-Perceiver v2は、幅広いビジョンとビジョン言語タスクで競争力を発揮する。
論文 参考訳(メタデータ) (2022-11-17T18:59:52Z) - Uni-Perceiver: Pre-training Unified Architecture for Generic Perception
for Zero-shot and Few-shot Tasks [73.63892022944198]
我々はUni-Perceiverという汎用認識アーキテクチャを提案する。
様々なモダリティやタスクを、統一されたモデリングと共有パラメータで処理します。
その結果、チューニングなしで事前学習したモデルは、新しいタスクでも合理的なパフォーマンスを達成できることがわかった。
論文 参考訳(メタデータ) (2021-12-02T18:59:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。