Fugu-MT 論文翻訳(概要): Open-Vocabulary Calibration for Vision-Language Models

論文の概要: Open-Vocabulary Calibration for Vision-Language Models

arxiv url: http://arxiv.org/abs/2402.04655v2
Date: Thu, 15 Feb 2024 07:26:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 23:24:40.580327
Title: Open-Vocabulary Calibration for Vision-Language Models
Title（参考訳）: 視覚言語モデルに対する開語彙校正
Authors: Shuoyuan Wang, Jindong Wang, Guoqing Wang, Bob Zhang, Kaiyang Zhou, Hongxin Wei
Abstract要約: 微調整視覚言語モデル(VLM)の信頼性校正問題は、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。本稿では,素早い学習の文脈において,信頼度校正問題を体系的に検討することにより,ギャップを埋める。本稿では,予測されたテキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づく,DAC(Distance-Aware)と呼ばれるシンプルで効果的なアプローチを提案する。
参考スコア（独自算出の注目度）: 47.49678788598922
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have emerged as formidable tools, showing their strong capability in handling various open-vocabulary tasks in image recognition, text-driven visual content generation, and visual chatbots, to name a few. In recent years, considerable efforts and resources have been devoted to adaptation methods for improving downstream performance of VLMs, particularly on parameter-efficient fine-tuning methods like prompt learning. However, a crucial aspect that has been largely overlooked is the confidence calibration problem in fine-tuned VLMs, which could greatly reduce reliability when deploying such models in the real world. This paper bridges the gap by systematically investigating the confidence calibration problem in the context of prompt learning and reveals that existing calibration methods are insufficient to address the problem, especially in the open-vocabulary setting. To solve the problem, we present a simple and effective approach called Distance-Aware Calibration (DAC), which is based on scaling the temperature using as guidance the distance between predicted text labels and base classes. The experiments with 7 distinct prompt learning methods applied across 11 diverse downstream datasets demonstrate the effectiveness of DAC, which achieves high efficacy without sacrificing the inference speed.
Abstract（参考訳）: 視覚言語モデル(VLM)は、画像認識、テキスト駆動型ビジュアルコンテンツ生成、ビジュアルチャットボットなどにおける様々なオープン語彙タスクを扱う強力な能力を示している。近年、VLMの下流性能を改善するための適応法、特に素早い学習のようなパラメータ効率の高い微調整法に多大な努力とリソースが注がれている。しかし、主に見過ごされてきた重要な側面は、細調整されたVLMにおける信頼性校正の問題であり、そのようなモデルを現実世界に展開する際の信頼性を大幅に低下させる可能性がある。本稿では,即興学習の文脈における信頼度校正問題を体系的に検討し,既存の校正手法ではこの問題,特にオープンボキャブラリー設定では解決が不十分であることを明らかにした。そこで本研究では,予測テキストラベルとベースクラス間の距離を誘導する手法として,温度のスケーリングに基づくDAC(Distance-Aware Calibration)を提案する。 11のダウンストリームデータセットに適用した7つの異なるプロンプトラーニング手法を用いた実験は、推論速度を犠牲にすることなく高い有効性を達成するdacの有効性を示す。

関連論文リスト

Towards Efficient and General-Purpose Few-Shot Misclassification Detection for Vision-Language Models [25.51735861729728]
現代のニューラルネットワークは、誤って分類された予測に対して過度に自信を示し、エラーを検出するための信頼度推定の必要性を強調している。我々は、テキスト情報を利用した視覚言語モデル(VLM)を利用して、効率的で汎用的な誤分類検出フレームワークを確立する。 VLMのパワーを活用することで、MisDのためのFew-Shotプロンプト学習フレームワークであるFSMisDを構築し、スクラッチからトレーニングを控え、チューニング効率を向上させる。
論文参考訳（メタデータ） (2025-03-26T12:31:04Z)
O-TPT: Orthogonality Constraints for Calibrating Test-time Prompt Tuning in Vision-Language Models [17.56932003351322]
視覚言語モデル(VLM)のテスト時プロンプトチューニングは、微調整なしでラベルのないデータで学習できることから注目されている。結果として得られたモデルはキャリブレーションの低さを示す傾向にあり、これらのモデルの信頼性と信頼性に疑問を呈する。我々は、学習可能なプロンプトに対応するテキストの特徴に直交制約を導入する、O-TPTと呼ばれる新しいアプローチを提案する。
論文参考訳（メタデータ） (2025-03-15T11:45:54Z)
Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文参考訳（メタデータ） (2025-02-03T18:43:36Z)
What Really Matters for Learning-based LiDAR-Camera Calibration [50.2608502974106]
本稿では,学習に基づくLiDAR-Cameraキャリブレーションの開発を再考する。我々は、広く使われているデータ生成パイプラインによる回帰ベースの手法の限界を識別する。また,入力データ形式と前処理操作がネットワーク性能に与える影響についても検討する。
論文参考訳（メタデータ） (2025-01-28T14:12:32Z)
Curriculum-style Data Augmentation for LLM-based Metaphor Detection [7.4594050203808395]
オープンソースLLMの微調整によるメタファ検出手法を提案する。本手法は,すべてのベースラインにおける最先端性能を実現する。
論文参考訳（メタデータ） (2024-12-04T02:05:21Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
Adaptive Rentention & Correction for Continual Learning [114.5656325514408]
連続学習における一般的な問題は、最新のタスクに対する分類層のバイアスである。アダプティブ・リテンション・アンド・コレクション (ARC) のアプローチを例に挙げる。 ARCはCIFAR-100とImagenet-Rのデータセットで平均2.7%と2.6%のパフォーマンス向上を達成した。
論文参考訳（メタデータ） (2024-05-23T08:43:09Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
On Task Performance and Model Calibration with Supervised and Self-Ensembled In-Context Learning [71.44986275228747]
In-context Learning (ICL) は、近年の大規模言語モデル(LLM)の進歩により、効率的なアプローチとなっている。しかし、両方のパラダイムは、過信の批判的な問題(すなわち、誤校正)に苦しむ傾向にある。
論文参考訳（メタデータ） (2023-12-21T11:55:10Z)
LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文参考訳（メタデータ） (2023-12-13T15:29:52Z)
Batch Calibration: Rethinking Calibration for In-Context Learning and Prompt Engineering [12.967536233145614]
Batch (BC) は、バッチ入力からコンテキストバイアスを制御する、単純だが直感的な手法である。 BCはゼロショットであり、推論のみであり、追加コストは無視できない。 10以上の自然言語理解および画像分類タスクにおいて,従来のキャリブレーションベースラインに対する最先端性能を示す。
論文参考訳（メタデータ） (2023-09-29T13:55:45Z)
Distribution-Aware Prompt Tuning for Vision-Language Models [20.02599087680773]
プロンプトチューニングの鍵は、モデルパラメータを固定した学習可能なベクトルを介して、2つのモード間の特徴空間アライメントである。この観測に触発されて、視覚言語モデルのための分布認識プロンプトチューニング(DAPT)を提案する。 11のベンチマークデータセットに対する実験により,本手法が一般化可能性を大幅に向上することが示された。
論文参考訳（メタデータ） (2023-09-06T23:49:11Z)
TeSLA: Test-Time Self-Learning With Automatic Adversarial Augmentation [13.515566909672188]
本稿では,TeSLAと呼ばれる自動適応型自己学習手法を提案する。我々は,相互情報とオンライン知識蒸留との密接な関係を通じて,新たなテスト時間損失関数を導入する。提案手法は,いくつかのベンチマークやドメインシフトのタイプにおいて,最先端の分類とセグメンテーション結果を実現する。
論文参考訳（メタデータ） (2023-03-17T10:15:13Z)
Low-Rank Robust Online Distance/Similarity Learning based on the Rescaled Hinge Loss [0.34376560669160383]
既存のオンライン手法では、トレーニング三つ子やペアの制約が事前に存在すると仮定することが多い。オンライン距離相似学習問題を,ロバストな再スケールヒンジ損失関数を用いて定式化する。提案モデルは比較的汎用的で,任意のPAベースのオンラインディスタンス・シミュラリティアルゴリズムに適用可能である。
論文参考訳（メタデータ） (2020-10-07T08:38:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。