論文の概要: Do Vision-Language Foundational models show Robust Visual Perception?
- arxiv url: http://arxiv.org/abs/2408.06781v1
- Date: Tue, 13 Aug 2024 10:06:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 17:56:13.617015
- Title: Do Vision-Language Foundational models show Robust Visual Perception?
- Title(参考訳): Vision-Language Foundational Modelは、ロバストな視覚知覚を示すか?
- Authors: Shivam Chandhok, Pranav Tandon,
- Abstract要約: 人間の知覚のような分布シフトに頑健なビジョン言語基盤モデルは存在するか?
具体的には、多種多様な視覚言語モデルを検討し、これらのシステムの性能が汚職に基づく分布変化の影響について比較する。
我々は、上記の分布シフトの下で、ゼロショット画像分類タスクに対して、定性的かつ定量的に一般化能力を解析する。
- 参考スコア(独自算出の注目度): 0.7374726900469745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in vision-language foundational models have enabled development of systems that can perform visual understanding and reasoning tasks. However, it is unclear if these models are robust to distribution shifts, and how their performance and generalization capabilities vary under changes in data distribution. In this project we strive to answer the question "Are vision-language foundational models robust to distribution shifts like human perception?" Specifically, we consider a diverse range of vision-language models and compare how the performance of these systems is affected by corruption based distribution shifts (such as \textit{motion blur, fog, snow, gaussian noise}) commonly found in practical real-world scenarios. We analyse the generalization capabilities qualitatively and quantitatively on zero-shot image classification task under aforementioned distribution shifts. Our code will be avaible at \url{https://github.com/shivam-chandhok/CPSC-540-Project}
- Abstract(参考訳): 近年の視覚言語基盤モデルの進歩により、視覚的理解と推論のタスクを実行できるシステムの開発が可能になった。
しかし、これらのモデルが分散シフトに頑健なのか、その性能と一般化能力がデータ分散の変化の下でどのように変化するのかは明らかでない。
このプロジェクトでは、"人間の知覚のような分散シフトに頑健なビジョン言語基盤モデルがあるか?
具体的には、様々な視覚言語モデルについて考察し、実際の現実のシナリオで一般的に見られるような腐敗に基づく分布変化(例えば、‘textit{motion blur, fog, snow, gaussian noise}’)によって、これらのシステムの性能がどのように影響を受けるかを比較する。
我々は、上記の分布シフトの下で、ゼロショット画像分類タスクに対して、定性的かつ定量的に一般化能力を解析する。
私たちのコードは \url{https://github.com/shivam-chandhok/CPSC-540-Project} で利用可能になります。
関連論文リスト
- Collapsed Language Models Promote Fairness [88.48232731113306]
偏りのある言語モデルはトークン表現と単語埋め込みの間に崩壊したアライメントを示す。
我々は,幅広い脱バイアス法において,公平性を効果的に向上する原理的な微調整法を設計する。
論文 参考訳(メタデータ) (2024-10-06T13:09:48Z) - See or Guess: Counterfactually Regularized Image Captioning [32.82695612178604]
本稿では、因果推論を利用して、既存のモデルを介入作業に役立てる汎用画像キャプションフレームワークを提案する。
本手法は幻覚を効果的に低減し,画像への忠実さを向上し,小型および大規模の画像・テキスト・モデル間で高い可搬性を示す。
論文 参考訳(メタデータ) (2024-08-29T17:59:57Z) - What could go wrong? Discovering and describing failure modes in computer vision [27.6114923305978]
言語に基づく誤り説明可能性(LBEE)の問題を定式化する。
我々は,共同視覚・言語埋め込み空間で機能するソリューションを提案する。
提案手法は,特定の誤りの原因に関連する非自明な文を分離する。
論文 参考訳(メタデータ) (2024-08-08T14:01:12Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - LaMPP: Language Models as Probabilistic Priors for Perception and Action [38.07277869107474]
非言語的知覚と制御タスクに言語モデルを活用する方法を示す。
提案手法は,確率的グラフィカルモデルにおけるラベリングと意思決定を推論として用いている。
論文 参考訳(メタデータ) (2023-02-03T15:14:04Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。
提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文 参考訳(メタデータ) (2020-09-18T17:52:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。