論文の概要: OV-COAST: Cost Aggregation with Optimal Transport for Open-Vocabulary Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2506.03706v1
- Date: Wed, 04 Jun 2025 08:36:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.237243
- Title: OV-COAST: Cost Aggregation with Optimal Transport for Open-Vocabulary Semantic Segmentation
- Title(参考訳): OV-COAST:オープンボキャブラリセマンティックセマンティックセグメンテーションのための最適輸送によるコストアグリゲーション
- Authors: Aditya Gandhamal, Aniruddh Sikdar, Suresh Sundaram,
- Abstract要約: Open-vocabulary semantic segmentation (OVSS)では、画像の各ピクセルにセマンティックラベルを割り当てる。
オープン語彙セマンティックセグメンテーションのためのOV-COASTを用いたコストアグリゲーションを提案する。
提案手法は,VT-Bバックボーンを用いたコスト集約モデルCAT-Segの性能を顕著に向上させるものである。
- 参考スコア(独自算出の注目度): 2.0293118701268154
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Open-vocabulary semantic segmentation (OVSS) entails assigning semantic labels to each pixel in an image using textual descriptions, typically leveraging world models such as CLIP. To enhance out-of-domain generalization, we propose Cost Aggregation with Optimal Transport (OV-COAST) for open-vocabulary semantic segmentation. To align visual-language features within the framework of optimal transport theory, we employ cost volume to construct a cost matrix, which quantifies the distance between two distributions. Our approach adopts a two-stage optimization strategy: in the first stage, the optimal transport problem is solved using cost volume via Sinkhorn distance to obtain an alignment solution; in the second stage, this solution is used to guide the training of the CAT-Seg model. We evaluate state-of-the-art OVSS models on the MESS benchmark, where our approach notably improves the performance of the cost-aggregation model CAT-Seg with ViT-B backbone, achieving superior results, surpassing CAT-Seg by 1.72 % and SAN-B by 4.9 % mIoU. The code is available at https://github.com/adityagandhamal/OV-COAST/}{https://github.com/adityagandhamal/OV-COAST/ .
- Abstract(参考訳): Open-vocabulary semantic segmentation (OVSS)は、テキスト記述を使用して画像の各ピクセルにセマンティックラベルを割り当てることを必要とする。
ドメイン外一般化を強化するために,オープン語彙セマンティックセマンティックセグメンテーションのためのOV-COAST (Optimal Transport) を用いたコストアグリゲーションを提案する。
最適輸送理論の枠組み内で視覚言語の特徴を整合させるため,コスト・ボリュームを用いて2つの分布間の距離を定量化するコスト・マトリックスを構築した。
第1段階ではシンクホーン距離によるコストボリュームを用いて最適輸送問題を解き、第2段階ではCAT-Segモデルのトレーニングを指導するためにこの解を用いる。
提案手法は,VT-Bバックボーンを用いたコスト集約モデルCAT-Segの性能を顕著に向上させ,CAT-Segを1.72 %,SAN-Bを4.9 %上回る結果となった。
コードはhttps://github.com/adityagandhamal/OV-COAST/}{https://github.com/adityagandhamal/OV-COAST/ で公開されている。
関連論文リスト
- Optimal Transport Adapter Tuning for Bridging Modality Gaps in Few-Shot Remote Sensing Scene Classification [80.83325513157637]
Few-Shot Remote Sensing Scene Classification (FS-RSSC)は,限られたラベル付きサンプルを用いたリモートセンシング画像の分類の課題を示す。
理想的なプラトン表現空間を構築することを目的とした,OTAT(Optimal Transport Adapter Tuning)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-19T07:04:24Z) - Make Optimization Once and for All with Fine-grained Guidance [78.14885351827232]
Learning to Optimize (L2O)は、統合ニューラルネットワークによる最適化効率を向上させる。
L2Oパラダイムは、例えば、リフィット、目に見えない解決策を反復的または直接的に生成するなど、大きな成果を達成する。
そこで本研究では,Diff-L2Oと呼ばれる学習最適化のための一般的なフレームワークについて検討した。
論文 参考訳(メタデータ) (2025-03-14T14:48:12Z) - Efficient Distributed Optimization under Heavy-Tailed Noise [32.96984712007111]
TailOPTは、潜在的に勾配のばらつきと局所的な更新を伴うヘビーテールノイズに対処するように設計されている。
Bi2Clip$は、インナーとアウターの両方でコーディネートワイドクリッピングを行い、アダプティブライクなパフォーマンスを実現する。
この$Bi2Clip$は、いくつかの言語タスクやモデルにおいて優れたパフォーマンスを示し、最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T15:47:18Z) - MARINA-P: Superior Performance in Non-smooth Federated Optimization with Adaptive Stepsizes [57.24311218570012]
EF21-P (匿名2024) と MARINA-P (arXiv:2402.06412) の非滑らか凸理論を非サイズ凸設定で拡張する。
我々は、定数、減少、適応(aktype)ステップの理論的保証を提供する。
論文 参考訳(メタデータ) (2024-12-22T16:18:34Z) - Lean and Mean Adaptive Optimization via Subset-Norm and Subspace-Momentum with Convergence Guarantees [5.399838579600896]
本稿では,大規模ニューラルネットワークのトレーニングを高速化しながら,メモリ要求を低減し,効率的な最適化を実現するための2つの補完的補完手法を提案する。
最初のテクニックであるSubset-m Step sizeは、ステップサイズの共有を通じてAdaGrad-NormとAdaGrad(-Norm)を一般化する。
第2の手法であるSubspace-Momentumは、運動量状態のメモリフットプリントを低次元のサブスペースにモーメントすることで削減する。
論文 参考訳(メタデータ) (2024-11-11T16:48:07Z) - Unsupervised Cross-Domain Image Retrieval via Prototypical Optimal Transport [24.141959555741696]
教師なしクロスドメイン画像検索は、ラベル付きデータに頼ることなく、さまざまな領域で同じカテゴリを共有する画像を検索することを目的としている。
従来のアプローチでは、UCIRの問題をドメイン内表現学習とドメイン間特徴アライメントという2つの異なるタスクに分解していた。
本稿では,UCIR に最適化された新規な Optimal Transport の定式化である ProtoOT を紹介する。
論文 参考訳(メタデータ) (2024-02-28T15:31:45Z) - Nesterov Meets Optimism: Rate-Optimal Separable Minimax Optimization [108.35402316802765]
本稿では,新しい一階最適化アルゴリズムであるAcceleratedGradient-OptimisticGradient (AG-OG) Ascentを提案する。
我々はAG-OGが様々な設定に対して最適収束率(定数まで)を達成することを示す。
アルゴリズムを拡張して設定を拡張し、bi-SC-SCとbi-C-SCの両方で最適な収束率を達成する。
論文 参考訳(メタデータ) (2022-10-31T17:59:29Z) - Domain Adaptive Person Re-Identification via Coupling Optimization [58.567492812339566]
ドメイン適応型人物再識別(ReID)は、ドメインのギャップとターゲットシナリオに対するアノテーションの不足のために困難である。
本稿では,ドメイン不変写像 (DIM) 法とグローバル局所距離最適化 (GLO) を含む結合最適化手法を提案する。
GLOはターゲットドメインの教師なし設定でReIDモデルをトレーニングするために設計されている。
論文 参考訳(メタデータ) (2020-11-06T14:01:03Z) - Bilevel Optimization: Convergence Analysis and Enhanced Design [63.64636047748605]
バイレベル最適化は多くの機械学習問題に対するツールである。
Stoc-BiO という新しい確率効率勾配推定器を提案する。
論文 参考訳(メタデータ) (2020-10-15T18:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。