論文の概要: LARE: Latent Augmentation using Regional Embedding with Vision-Language Model
- arxiv url: http://arxiv.org/abs/2409.12597v1
- Date: Thu, 19 Sep 2024 09:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 14:19:13.512385
- Title: LARE: Latent Augmentation using Regional Embedding with Vision-Language Model
- Title(参考訳): LARE:視覚言語モデルを用いた局所埋め込みを用いた潜時拡張
- Authors: Kosuke Sakurai, Tatsuya Ishii, Ryotaro Shimizu, Linxin Song, Masayuki Goto,
- Abstract要約: 視覚言語モデルは、イメージを単一の点として統合された埋め込み空間に埋め込む。
地域埋め込み(LARE)は、VLMによって学習された統合埋め込み空間の領域としてイメージを埋め込む。
LAREは、ファインチューンVLMへの拡張画像埋め込みを用いて、領域内および外部の堅牢な画像分類を実現する。
- 参考スコア(独自算出の注目度): 2.0971479389679337
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, considerable research has been conducted on vision-language models that handle both image and text data; these models are being applied to diverse downstream tasks, such as "image-related chat," "image recognition by instruction," and "answering visual questions." Vision-language models (VLMs), such as Contrastive Language-Image Pre-training (CLIP), are also high-performance image classifiers that are being developed into domain adaptation methods that can utilize language information to extend into unseen domains. However, because these VLMs embed images as a single point in a unified embedding space, there is room for improvement in the classification accuracy. Therefore, in this study, we proposed the Latent Augmentation using Regional Embedding (LARE), which embeds the image as a region in the unified embedding space learned by the VLM. By sampling the augmented image embeddings from within this latent region, LARE enables data augmentation to various unseen domains, not just to specific unseen domains. LARE achieves robust image classification for domains in and out using augmented image embeddings to fine-tune VLMs. We demonstrate that LARE outperforms previous fine-tuning models in terms of image classification accuracy on three benchmarks. We also demonstrate that LARE is a more robust and general model that is valid under multiple conditions, such as unseen domains, small amounts of data, and imbalanced data.
- Abstract(参考訳): 近年、画像データとテキストデータの両方を扱う視覚言語モデルについてかなりの研究が行われており、これらのモデルは「画像関連チャット」や「指示による画像認識」や「視覚的質問」といった様々な下流タスクに応用されている。
Contrastive Language-Image Pre-Training (CLIP) のような視覚言語モデル(VLM)は、言語情報を利用して未知の領域に拡張できる領域適応手法として開発されている高性能な画像分類器である。
しかし、これらのVLMは統合埋め込み空間に単一点として画像を埋め込むため、分類精度が向上する余地がある。
そこで本研究では,VLMが学習した統合埋め込み空間において,画像を領域として埋め込んだLARE(Latent Augmentation using Regional Embedding)を提案する。
この潜伏領域から拡張画像埋め込みをサンプリングすることにより、LAREは特定の未確認領域だけでなく、さまざまな未確認領域へのデータ拡張を可能にする。
LAREは、細いVLMへの拡張画像埋め込みを用いて、領域内および外部の堅牢な画像分類を実現する。
LAREは3つのベンチマークで画像分類精度で従来の微調整モデルより優れていることを示す。
また、LAREは、未確認領域、少量のデータ、不均衡データなど、複数の条件下で有効である、より堅牢で一般的なモデルであることを示す。
関連論文リスト
- SiamSeg: Self-Training with Contrastive Learning for Unsupervised Domain Adaptation Semantic Segmentation in Remote Sensing [14.007392647145448]
UDAは、ラベル付きソースドメインデータをトレーニングしながら、ラベルなしのターゲットドメインデータからモデルを学習することを可能にする。
コントラスト学習を UDA に統合し,セマンティック情報を取得する能力を向上させることを提案する。
我々のSimSegメソッドは既存の手法より優れ、最先端の結果が得られます。
論文 参考訳(メタデータ) (2024-10-17T11:59:39Z) - Regularized Training with Generated Datasets for Name-Only Transfer of Vision-Language Models [36.59260354292177]
近年のテキスト・画像生成の進歩により、研究者は生成モデルを用いて知覚モデルに適したデータセットを生成するようになった。
我々は、実際の画像にアクセスせずに、視覚言語モデルを特定の分類モデルに微調整することを目指している。
生成した画像の忠実度が高いにもかかわらず、生成したデータセットを用いてモデルを微調整すると、顕著な性能劣化が観測された。
論文 参考訳(メタデータ) (2024-06-08T10:43:49Z) - WIDIn: Wording Image for Domain-Invariant Representation in Single-Source Domain Generalization [63.98650220772378]
We present WIDIn, Wording Images for Domain-Invariant representation, to disentangleative discriminative visual representation。
まず、ドメイン固有の言語を適応的に識別し、削除するために使用可能な、きめ細かいアライメントを組み込んだ言語を推定する。
WIDInは、CLIPのような事前訓練された視覚言語モデルと、MoCoやBERTのような個別訓練されたユニモーダルモデルの両方に適用可能であることを示す。
論文 参考訳(メタデータ) (2024-05-28T17:46:27Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - VLLaVO: Mitigating Visual Gap through LLMs [7.352822795984628]
クロスドメイン学習は、トレーニングとテストデータのドメインシフトを減らすために、ドメイン不変の知識を抽出することを目的としている。
視覚言語モデルと大規模言語モデルを組み合わせたVLLaVOを提案する。
論文 参考訳(メタデータ) (2024-01-06T16:33:39Z) - Augment the Pairs: Semantics-Preserving Image-Caption Pair Augmentation
for Grounding-Based Vision and Language Models [16.4010094165575]
テキスト条件付きおよびテキスト条件付きデータ拡張で訓練されたロバストな句接頭辞モデルを提案する。
近年のマスク信号再構成に着想を得て,新しいデータ拡張形式としてピクセルレベルのマスキングを提案する。
提案手法は,各種メトリクスを用いた最先端技術に対する高度な性能を示す。
論文 参考訳(メタデータ) (2023-11-05T01:14:02Z) - IFSeg: Image-free Semantic Segmentation via Vision-Language Model [67.62922228676273]
目的は,対象のセマンティックなカテゴリの集合にのみ依存するセマンティックセマンティックセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなセマンティックなタスクを実現することである。
本研究では、ランダムな意味圏の2次元マップと、対応する単語トークンの別のマップを作成することで、この人工的なトレーニングデータを構築する。
本モデルでは,本課題の効果的なベースラインを確立するだけでなく,既存手法と比較して高い性能を示す。
論文 参考訳(メタデータ) (2023-03-25T08:19:31Z) - Using Language to Extend to Unseen Domains [81.37175826824625]
ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。
トレーニングドメインと拡張したいが、堅牢性を改善するためのデータを持っていないドメインを、いかに単純に言葉で表現するかを考えます。
共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSはトレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。
論文 参考訳(メタデータ) (2022-10-18T01:14:02Z) - Multi-Scale Multi-Target Domain Adaptation for Angle Closure
Classification [50.658613573816254]
角度閉包分類のためのM2DAN(Multi-scale Multi-target Domain Adversarial Network)を提案する。
異なるスケールでのこれらのドメイン不変性に基づいて、ソースドメインで訓練されたディープモデルは、複数のターゲットドメインの角度クロージャを分類することができる。
論文 参考訳(メタデータ) (2022-08-25T15:27:55Z) - Few-shot Unsupervised Domain Adaptation with Image-to-class Sparse
Similarity Encoding [24.64900089320843]
本稿では,FS-UDA ( few-shot unsupervised domain adaptation) という貴重な設定について検討する。
この設定では、ソースドメインデータはラベル付けされるが、ターゲットドメインデータはラベル付けされない。
我々は,カテゴリごとのラベル付きラベル付きデータと,サポートセットとクエリセット間のドメイン適応を解決するための汎用UDAモデルを開発した。
論文 参考訳(メタデータ) (2021-08-06T06:15:02Z) - DoFE: Domain-oriented Feature Embedding for Generalizable Fundus Image
Segmentation on Unseen Datasets [96.92018649136217]
対象ドメインに対するCNNの一般化能力を向上させるために,新しいドメイン指向特徴埋め込み(DoFE)フレームワークを提案する。
私たちのDoFEフレームワークは、マルチソースドメインから学んだ追加のドメイン事前知識で、画像機能を動的に強化します。
本フレームワークは、未確認データセットのセグメンテーション結果を満足して生成し、他の領域の一般化やネットワークの正規化手法を超越する。
論文 参考訳(メタデータ) (2020-10-13T07:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。