論文の概要: On the Domain Robustness of Contrastive Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.23663v1
- Date: Mon, 30 Jun 2025 09:39:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.998383
- Title: On the Domain Robustness of Contrastive Vision-Language Models
- Title(参考訳): 対照的な視覚・言語モデルのドメインロバスト性について
- Authors: Mario Koddenbrock, Rudolf Hoffmann, David Brodmann, Erik Rodner,
- Abstract要約: Deepbenchは、視覚言語モデルのドメイン固有の堅牢性を評価するために設計されたフレームワークである。
実世界の6つの領域にまたがる、コントラストのある視覚言語アーキテクチャとアーキテクチャのバリエーションを評価した。
- 参考スコア(独自算出の注目度): 2.169562514302842
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world vision-language applications, practitioners increasingly rely on large, pretrained foundation models rather than custom-built solutions, despite limited transparency regarding their training data and processes. While these models achieve impressive performance on general benchmarks, their effectiveness can decline notably under specialized domain shifts, such as unique imaging conditions or environmental variations. In this work, we introduce Deepbench, a framework designed to assess domain-specific robustness of vision-language models (VLMs). Deepbench leverages a large language model (LLM) to generate realistic, context-aware image corruptions tailored to specific deployment domains without requiring labeled data. We evaluate a range of contrastive vision-language architectures and architectural variants across six real-world domains and observe substantial variability in robustness, highlighting the need for targeted, domain-aware evaluation. Deepbench is released as open-source software to support further research into domain-aware robustness assessment.
- Abstract(参考訳): 現実の視覚言語アプリケーションでは、実践者は、トレーニングデータやプロセスに関する透明性が限られているにもかかわらず、カスタム構築ソリューションではなく、大規模で事前訓練された基礎モデルにますます依存している。
これらのモデルは一般的なベンチマークで顕著な性能を達成するが、独自の撮像条件や環境変動といった特殊な領域シフトの下では、その効果は顕著に低下する可能性がある。
本稿では,視覚言語モデル(VLM)のドメイン固有ロバスト性を評価するためのフレームワークであるDeepbenchを紹介する。
Deepbenchは大規模言語モデル(LLM)を活用して、ラベル付きデータを必要とせずに、特定のデプロイメントドメインに合わせて調整された、現実的なコンテキスト対応の画像破損を生成する。
実世界の6つのドメインにまたがる、コントラストのある視覚言語アーキテクチャとアーキテクチャのバリエーションを評価し、ロバスト性における実質的な多様性を観察し、ターゲットとなるドメイン認識評価の必要性を強調した。
Deepbenchは、ドメイン認識の堅牢性評価に関するさらなる研究を支援するオープンソースソフトウェアとしてリリースされた。
関連論文リスト
- ForensicHub: A Unified Benchmark & Codebase for All-Domain Fake Image Detection and Localization [48.147576833781386]
ForensicHubは、オールドメインの偽画像検出とローカライゼーションのための最初の統一ベンチマークである。
科学的なパイプラインをデータセット、変換、モデル、評価者間で交換可能なコンポーネントに分解する。
FIDLモデルアーキテクチャ、データセットの特徴、評価標準に関する8つの重要な実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-05-16T08:49:59Z) - Feature Based Methods in Domain Adaptation for Object Detection: A Review Paper [0.6437284704257459]
ドメイン適応は、異なるデータ分布を持つターゲットドメインにデプロイされた場合、機械学習モデルの性能を向上させることを目的としている。
本総説では, 対人学習, 相違に基づく多分野, 教師学生, アンサンブル, ビジョン言語モデルなど, ドメイン適応のための高度な方法論を考察する。
特に合成ドメインシフトを含むシナリオにおいて、ラベル付きデータへの依存を最小限に抑える戦略に特に注意が払われる。
論文 参考訳(メタデータ) (2024-12-23T06:34:23Z) - LARE: Latent Augmentation using Regional Embedding with Vision-Language Model [2.0971479389679337]
視覚言語モデルは、イメージを単一の点として統合された埋め込み空間に埋め込む。
地域埋め込み(LARE)は、VLMによって学習された統合埋め込み空間の領域としてイメージを埋め込む。
LAREは、ファインチューンVLMへの拡張画像埋め込みを用いて、領域内および外部の堅牢な画像分類を実現する。
論文 参考訳(メタデータ) (2024-09-19T09:21:42Z) - Pushing the Limits of Vision-Language Models in Remote Sensing without Human Annotations [5.065947993017157]
本研究では、画像復号化機械学習モデルを用いて、視覚言語データセットをキュレートする手法を提案する。
約960万の視覚言語対のデータセットをVHR画像で収集しました。
結果として得られたモデルは、公開可能なビジョン言語データセットを活用できないものよりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T06:36:08Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Unified Language-driven Zero-shot Domain Adaptation [55.64088594551629]
Unified Language-driven Zero-shot Domain Adaptation (ULDA)は、新しいタスクセットである。
これにより、ドメインIDの知識を明示することなく、単一のモデルを多様なターゲットドメインに適応させることができる。
論文 参考訳(メタデータ) (2024-04-10T16:44:11Z) - VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文 参考訳(メタデータ) (2024-02-22T11:21:54Z) - Domain Prompt Learning with Quaternion Networks [49.45309818782329]
本稿では、ドメイン固有の基礎モデルからドメイン固有の知識を活用して、ビジョン言語モデルの堅牢な認識能力を特定ドメインに転送することを提案する。
本稿では、階層型言語プロンプト特徴とドメイン固有の視覚特徴との間のモーダル関係を解析することにより、視覚プロンプト特徴を生成する階層型アプローチを提案する。
提案手法は,即時学習のための新しい最先端結果を実現する。
論文 参考訳(メタデータ) (2023-12-12T08:49:39Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。