論文の概要: A Simple Recipe for Language-guided Domain Generalized Segmentation
- arxiv url: http://arxiv.org/abs/2311.17922v1
- Date: Wed, 29 Nov 2023 18:59:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 20:12:20.144318
- Title: A Simple Recipe for Language-guided Domain Generalized Segmentation
- Title(参考訳): 言語誘導ドメイン一般化セグメンテーションのための簡易レシピ
- Authors: Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick P\'erez, Raoul de
Charette
- Abstract要約: トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の目標と課題の1つだ。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
- 参考スコア(独自算出の注目度): 27.524962843495366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization to new domains not seen during training is one of the
long-standing goals and challenges in deploying neural networks in real-world
applications. Existing generalization techniques necessitate substantial data
augmentation, potentially sourced from external datasets, and aim at learning
invariant representations by imposing various alignment constraints.
Large-scale pretraining has recently shown promising generalization
capabilities, along with the potential of bridging different modalities. For
instance, the recent advent of vision-language models like CLIP has opened the
doorway for vision models to exploit the textual modality. In this paper, we
introduce a simple framework for generalizing semantic segmentation networks by
employing language as the source of randomization. Our recipe comprises three
key ingredients: i) the preservation of the intrinsic CLIP robustness through
minimal fine-tuning, ii) language-driven local style augmentation, and iii)
randomization by locally mixing the source and augmented styles during
training. Extensive experiments report state-of-the-art results on various
generalization benchmarks. The code will be made available.
- Abstract(参考訳): トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の目標と課題の1つだ。
既存の一般化技術は、外部データセットから潜在的に引き起こされる潜在的なデータ拡張を必要とし、様々なアライメント制約を課すことで不変表現の学習を目指している。
大規模事前トレーニングは、最近、異なるモダリティを橋渡しする可能性とともに、有望な一般化能力を示している。
例えば、最近のCLIPのような視覚言語モデルの出現は、視覚モデルがテキストのモダリティを利用するための扉を開いた。
本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
レシピには3つの重要な材料が含まれています
一 最小限の微調整による内在的なクリップの頑健さの維持
二 言語によるローカルスタイルの強化及び
三 訓練中、ソースと拡張スタイルを局所的に混合してランダム化すること。
総合的な実験では、様々な一般化ベンチマークで最先端の結果が報告されている。
コードは利用可能になります。
関連論文リスト
- Beyond Sole Strength: Customized Ensembles for Generalized
Vision-Language Models [59.608411859194]
ファインチューニング型視覚言語モデル (VLM) はその実用的価値から人気が高まっている。
本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について検討する。
それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。
提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-28T05:17:25Z) - A Sentence Speaks a Thousand Images: Domain Generalization through
Distilling CLIP with Language Guidance [41.793995960478355]
大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。
鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。
提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-09-21T23:06:19Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Real-World Compositional Generalization with Disentangled
Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。
このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。
具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文 参考訳(メタデータ) (2022-12-12T15:40:30Z) - Meta-learning Pathologies from Radiology Reports using Variance Aware
Prototypical Networks [3.464871689508835]
本稿では,数ショットのテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。
我々の主な考えは、クラスプロトタイプをガウスに置き換え、サンプルを適切なクラスセントロイドの近くでクラスタ化することを奨励する正規化項を導入することである。
論文 参考訳(メタデータ) (2022-10-22T05:22:29Z) - Learning to Generalize to More: Continuous Semantic Augmentation for
Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。
CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文 参考訳(メタデータ) (2022-04-14T08:16:28Z) - Pre-Trained Language Models for Interactive Decision-Making [72.77825666035203]
目的と観測を埋め込みのシーケンスとして表現する模倣学習の枠組みを述べる。
このフレームワークは様々な環境にまたがって効果的な一般化を可能にすることを実証する。
新たなゴールや新しいシーンを含むテストタスクでは、言語モデルによる初期化ポリシーはタスク完了率を43.6%改善する。
論文 参考訳(メタデータ) (2022-02-03T18:55:52Z) - SDA: Improving Text Generation with Self Data Augmentation [88.24594090105899]
自動データ拡張のための自己模倣学習フェーズを組み込むことにより,標準最大確率推定(MLE)パラダイムを改善することを提案する。
既存の文レベルの拡張戦略とは異なり,本手法はより汎用的で,任意のMLEベースの訓練手順に容易に適応できる。
論文 参考訳(メタデータ) (2021-01-02T01:15:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。