Fugu-MT 論文翻訳(概要): A Simple Recipe for Language-guided Domain Generalized Segmentation

論文の概要: A Simple Recipe for Language-guided Domain Generalized Segmentation

arxiv url: http://arxiv.org/abs/2311.17922v1
Date: Wed, 29 Nov 2023 18:59:59 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 20:12:20.144318
Title: A Simple Recipe for Language-guided Domain Generalized Segmentation
Title（参考訳）: 言語誘導ドメイン一般化セグメンテーションのための簡易レシピ
Authors: Mohammad Fahes, Tuan-Hung Vu, Andrei Bursuc, Patrick P\'erez, Raoul de Charette
Abstract要約: トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の目標と課題の1つだ。本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。
参考スコア（独自算出の注目度）: 27.524962843495366
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generalization to new domains not seen during training is one of the long-standing goals and challenges in deploying neural networks in real-world applications. Existing generalization techniques necessitate substantial data augmentation, potentially sourced from external datasets, and aim at learning invariant representations by imposing various alignment constraints. Large-scale pretraining has recently shown promising generalization capabilities, along with the potential of bridging different modalities. For instance, the recent advent of vision-language models like CLIP has opened the doorway for vision models to exploit the textual modality. In this paper, we introduce a simple framework for generalizing semantic segmentation networks by employing language as the source of randomization. Our recipe comprises three key ingredients: i) the preservation of the intrinsic CLIP robustness through minimal fine-tuning, ii) language-driven local style augmentation, and iii) randomization by locally mixing the source and augmented styles during training. Extensive experiments report state-of-the-art results on various generalization benchmarks. The code will be made available.
Abstract（参考訳）: トレーニング中に見えない新しいドメインへの一般化は、ニューラルネットワークを現実世界のアプリケーションにデプロイする上での長年の目標と課題の1つだ。既存の一般化技術は、外部データセットから潜在的に引き起こされる潜在的なデータ拡張を必要とし、様々なアライメント制約を課すことで不変表現の学習を目指している。大規模事前トレーニングは、最近、異なるモダリティを橋渡しする可能性とともに、有望な一般化能力を示している。例えば、最近のCLIPのような視覚言語モデルの出現は、視覚モデルがテキストのモダリティを利用するための扉を開いた。本稿では,言語をランダム化の源とすることで意味分節ネットワークを一般化するシンプルなフレームワークを提案する。レシピには3つの重要な材料が含まれています一最小限の微調整による内在的なクリップの頑健さの維持二言語によるローカルスタイルの強化及び三訓練中、ソースと拡張スタイルを局所的に混合してランダム化すること。総合的な実験では、様々な一般化ベンチマークで最先端の結果が報告されている。コードは利用可能になります。

関連論文リスト

DiSa: Directional Saliency-Aware Prompt Learning for Generalizable Vision-Language Models [5.027492394254859]
DiSa は Directional Saliency-Aware Prompt Learning フレームワークである。一般化を強化するために2つの補完正則化戦略を統合する。さまざまな設定において、最先端のプロンプト学習方法よりも一貫して優れています。
論文参考訳（メタデータ） (2025-05-26T00:14:52Z)
Interpretable Face Anti-Spoofing: Enhancing Generalization with Multimodal Large Language Models [58.936893810674896]
顔認識システムのセキュリティと信頼性を確保するためには,FAS(Face Anti-Spoofing)が不可欠である。 I-FAS(Interpretable Face Anti-Spoofing)と呼ばれるFASのためのマルチモーダルな大規模言語モデルフレームワークを提案する。本稿では,FAS画像の高品質なキャプションを生成するために,Spof-Aware Captioning and Filtering(SCF)戦略を提案する。
論文参考訳（メタデータ） (2025-01-03T09:25:04Z)
Few Shot Class Incremental Learning using Vision-Language models [24.930246674021525]
本研究では,言語正規化器と部分空間正規化器を利用する,革新的な数ショットクラスインクリメンタルラーニング(FSCIL)フレームワークを提案する。提案するフレームワークは,限られたデータを持つ新しいクラスをモデルに導入するだけでなく,ベースクラスのパフォーマンスの維持も保証する。
論文参考訳（メタデータ） (2024-05-02T06:52:49Z)
Pay Attention to Your Neighbours: Training-Free Open-Vocabulary Semantic Segmentation [19.20874993309959]
CLIPのような視覚言語基盤モデルは、多くのゼロショット画像レベルタスクにおいて顕著な効果を示した。我々は、Nighbour-Aware CLIP(NACLIP)と呼ばれる、トレーニング不要なOVSSのベースラインを提案する。 OVSSの文献では,高密度予測タスクに欠かせないCLIPの視覚変換器の自己アテンションにおけるパッチの局所化が過小評価されている。
論文参考訳（メタデータ） (2024-04-12T01:08:04Z)
UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。 UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-12T06:35:09Z)
Towards More Unified In-context Visual Understanding [74.55332581979292]
マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
論文参考訳（メタデータ） (2023-12-05T06:02:21Z)
A Sentence Speaks a Thousand Images: Domain Generalization through Distilling CLIP with Language Guidance [41.793995960478355]
大規模視覚言語モデルにおける最近の進歩を生かした領域一般化のための新しい手法を提案する。鍵となる技術的貢献は、生徒の学習した画像表現が教師の学習したテキスト表現に近いことを要求する新しいタイプの正規化である。提案手法はRISEと呼ばれ,様々なベンチマークデータセットを用いて評価し,最先端の領域一般化手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-09-21T23:06:19Z)
Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文参考訳（メタデータ） (2023-03-16T09:51:41Z)
Real-World Compositional Generalization with Disentangled Sequence-to-Sequence Learning [81.24269148865555]
最近提案されたDunangled sequence-to-sequence model (Dangle)は、有望な一般化能力を示している。このモデルに2つの重要な変更を加え、より不整合表現を奨励し、その計算とメモリ効率を改善する。具体的には、各タイミングでソースキーと値を適応的に再エンコードするのではなく、表現をアンタングルし、キーを定期的に再エンコードする。
論文参考訳（メタデータ） (2022-12-12T15:40:30Z)
Language-aware Domain Generalization Network for Cross-Scene Hyperspectral Image Classification [15.842081807249416]
ハイパースペクトル画像分類における言語モードの有効性を検討する必要がある。大規模な事前学習画像テキスト基盤モデルは、様々なダウンストリームアプリケーションで優れた性能を示している。言語対応ドメイン一般化ネットワーク(LDGnet)を提案する。
論文参考訳（メタデータ） (2022-09-06T10:06:10Z)
Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation [50.54059385277964]
CsaNMT(Continuous Semantic Augmentation)と呼ばれる新しいデータ拡張パラダイムを提案する。 CsaNMTは各トレーニングインスタンスを、同じ意味の下で適切なリテラル式をカバーできる隣接領域で拡張する。
論文参考訳（メタデータ） (2022-04-14T08:16:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。