Fugu-MT 論文翻訳(概要): Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models

論文の概要: Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models

arxiv url: http://arxiv.org/abs/2306.02080v3
Date: Sat, 18 Nov 2023 08:51:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 19:26:23.591511
Title: Benchmarking Robustness of Adaptation Methods on Pre-trained Vision-Language Models
Title（参考訳）: 事前学習した視覚言語モデルにおける適応法のロバスト性
Authors: Shuo Chen, Jindong Gu, Zhen Han, Yunpu Ma, Philip Torr, Volker Tresp
Abstract要約: マルチモーダルな汚職下では、4つの視覚言語データセットにまたがる11種類の広く使われている適応手法のロバスト性を評価する。 1)適応法は視覚的汚職よりもテキストの汚損に敏感である。予測とは対照的に,適応データやパラメータの増大は強靭性を保証するものではないことが示唆された。
参考スコア（独自算出の注目度）: 49.595973365500775
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Various adaptation methods, such as LoRA, prompts, and adapters, have been proposed to enhance the performance of pre-trained vision-language models in specific domains. The robustness of these adaptation methods against distribution shifts have not been studied. In this study, we assess the robustness of 11 widely-used adaptation methods across 4 vision-language datasets under multimodal corruptions. Concretely, we introduce 7 benchmark datasets, including 96 visual and 87 textual corruptions, to investigate the robustness of different adaptation methods, the impact of available adaptation examples, and the influence of trainable parameter size during adaptation. Our analysis reveals that: 1) Adaptation methods are more sensitive to text corruptions than visual corruptions. 2) Full fine-tuning does not consistently provide the highest robustness; instead, adapters can achieve better robustness with comparable clean performance. 3) Contrary to expectations, our findings indicate that increasing the number of adaptation data and parameters does not guarantee enhanced robustness; instead it results in even lower robustness. We hope this study could benefit future research in the development of robust multimodal adaptation methods. The benchmark, code, and dataset used in this study can be accessed at https://adarobustness.github.io .
Abstract（参考訳）: LoRA、プロンプト、アダプタなどの様々な適応手法が提案され、特定の領域における事前学習された視覚言語モデルの性能を向上させる。これらの分散シフトに対する適応法の堅牢性は研究されていない。本研究では,4つの視覚言語データセットにまたがる11の適応手法のロバスト性を評価する。具体的には、異なる適応手法の堅牢性、利用可能な適応例の影響、適応中のトレーニング可能なパラメータサイズの影響を調べるために、96の視覚的および87のテキスト汚職を含む7つのベンチマークデータセットを導入する。私たちの分析によると、 1)適応手法は視覚的腐敗よりもテキストの腐敗に敏感である。 2) 完全な微調整は、一貫して最も堅牢性を提供しない;代わりに、アダプタは、同等のクリーンな性能で、より優れた堅牢性を達成できる。 3) 予測に反して, 適応データとパラメータの増加は頑健性の向上を保証せず, より低いロバスト性をもたらすことが示唆された。本研究は,ロバストなマルチモーダル適応法の開発における今後の研究の恩恵を期待する。この研究で使われているベンチマーク、コード、データセットは、https://adarobustness.github.io.com/でアクセスできる。

関連論文リスト

FIESTA: Fisher Information-based Efficient Selective Test-time Adaptation [2.876586838098149]
本稿では,最も重要なモデルパラメータのみを動的に識別・更新するフィッシャー駆動選択的適応フレームワークを提案する。 AffWild2ベンチマークの実験は、我々のアプローチが既存のTTAメソッドを大幅に上回っていることを示している。提案手法は認識精度を向上するだけでなく、計算オーバーヘッドを大幅に削減し、実世界の感情コンピューティングアプリケーションにおいてテスト時間適応をより実用的なものにする。
論文参考訳（メタデータ） (2025-03-29T23:56:32Z)
UncertaintyRAG: Span-Level Uncertainty Enhanced Long-Context Modeling for Retrieval-Augmented Generation [93.38604803625294]
IncertaintyRAG, a novel approach for long-context Retrieval-Augmented Generation (RAG)について紹介する。我々は、SNR(Signal-to-Noise Ratio)ベースのスパン不確実性を用いて、テキストチャンク間の類似性を推定する。不確かさRAGはLLaMA-2-7Bでベースラインを2.03%上回り、最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-03T17:39:38Z)
A Lost Opportunity for Vision-Language Models: A Comparative Study of Online Test-Time Adaptation for Vision-Language Models [3.0495235326282186]
ディープラーニングでは、分散シフトに対する堅牢性を維持することが重要です。この研究は、視覚言語基礎モデルをテスト時に適用するための幅広い可能性を探究する。
論文参考訳（メタデータ） (2024-05-23T18:27:07Z)
Cross-Modal Adapter: Parameter-Efficient Transfer Learning Approach for Vision-Language Models [38.751158173278796]
この研究はXMAdapterというクロスモーダルパラメータ効率のアプローチを導入している。 XMAdapterは、テキストと画像のモダリティの両方のキャッシュモデルを確立する。次に、視覚言語バイモーダル情報による検索を活用して、推論の手がかりを収集する。
論文参考訳（メタデータ） (2024-04-19T02:33:23Z)
Masked Thought: Simply Masking Partial Reasoning Steps Can Improve Mathematical Reasoning Learning of Language Models [102.72940700598055]
推論タスクでは、小さなエラーでも不正確な結果にカスケードすることができる。入力の摂動に頼らず、外部リソースの導入を避ける手法を開発した。私たちのトレーニングアプローチでは、思考の連鎖の中で特定のトークンをランダムにマスクします。
論文参考訳（メタデータ） (2024-03-04T16:21:54Z)
Empirical Analysis of Efficient Fine-Tuning Methods for Large Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。 BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文参考訳（メタデータ） (2024-01-08T17:44:43Z)
In Search of Lost Online Test-time Adaptation: A Survey [40.68806005826287]
本稿では,オンラインテスト時間適応(OTTA)に関する総合的な調査を紹介する。我々はOTTAテクニックを3つの主要なカテゴリに分類し、それらをモダンなバックボーンであるビジョントランスフォーマー(ViT)を用いてベンチマークする。以上の結果から,トランスフォーマーは多彩なドメインシフトに対するレジリエンスを高めていることが明らかとなった。
論文参考訳（メタデータ） (2023-10-31T05:47:33Z)
Learning Representations Robust to Group Shifts and Adversarial Examples [18.742222861886148]
本稿では,対向学習とグループ分布の頑健な最適化を組み合わせて表現学習を改善するアルゴリズムを提案する。 3つの画像ベンチマークデータセットの実験から,提案手法は標準指標の多くを犠牲にすることなく,ロバストな測定結果に対して優れた結果が得られることを示す。
論文参考訳（メタデータ） (2022-02-18T22:06:25Z)
MEMO: Test Time Robustness via Adaptation and Augmentation [131.28104376280197]
テスト時間ロバスト化の問題、すなわちモデルロバスト性を改善するためにテストインプットを用いて検討する。最近の先行研究ではテスト時間適応法が提案されているが、それぞれ追加の仮定を導入している。モデルが確率的で適応可能な任意のテスト環境で使用できるシンプルなアプローチを提案する。
論文参考訳（メタデータ） (2021-10-18T17:55:11Z)
Unsupervised Robust Domain Adaptation without Source Data [75.85602424699447]
我々は、利用できないターゲットラベルとソースデータのコンテキストにおけるロバストなドメイン適応の問題について研究する。 4つのベンチマークデータセットでテストされたベースラインに対して10%以上の精度で一貫したパフォーマンス改善を示す。
論文参考訳（メタデータ） (2021-03-26T16:42:28Z)
Adaptive Gradient Method with Resilience and Momentum [120.83046824742455]
レジリエンスとモメンタム(AdaRem)を用いた適応勾配法を提案する。 AdaRemは、過去の1つのパラメータの変化方向が現在の勾配の方向と一致しているかどうかに応じてパラメータワイズ学習率を調整する。本手法は,学習速度とテスト誤差の観点から,従来の適応学習率に基づくアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2020-10-21T14:49:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。