Fugu-MT 論文翻訳(概要): SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook

論文の概要: SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook

arxiv url: http://arxiv.org/abs/2409.06105v1
Date: Mon, 9 Sep 2024 23:12:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-11 19:30:39.000114
Title: SGC-VQGAN: Towards Complex Scene Representation via Semantic Guided Clustering Codebook
Title（参考訳）: SGC-VQGAN:Semantic Guided Clustering Codebookによる複雑なシーン表現を目指して
Authors: Chenjing Ding, Chiyu Wang, Boshi Liu, Xi Guo, Weixuan Tang, Wei Wu,
Abstract要約: 本稿では,SGC-VQGANをセマンティックオンラインクラスタリング法で導入し,一貫性セマンティックラーニングによるトークンセマンティクスを強化する。提案手法は時間空間的に一貫したセマンティック・コードブックを構築し,コードブックの崩壊問題と不均衡なトークン・セマンティクスに対処する。
参考スコア（独自算出の注目度）: 9.993066868670283
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vector quantization (VQ) is a method for deterministically learning features through discrete codebook representations. Recent works have utilized visual tokenizers to discretize visual regions for self-supervised representation learning. However, a notable limitation of these tokenizers is lack of semantics, as they are derived solely from the pretext task of reconstructing raw image pixels in an auto-encoder paradigm. Additionally, issues like imbalanced codebook distribution and codebook collapse can adversely impact performance due to inefficient codebook utilization. To address these challenges, We introduce SGC-VQGAN through Semantic Online Clustering method to enhance token semantics through Consistent Semantic Learning. Utilizing inference results from segmentation model , our approach constructs a temporospatially consistent semantic codebook, addressing issues of codebook collapse and imbalanced token semantics. Our proposed Pyramid Feature Learning pipeline integrates multi-level features to capture both image details and semantics simultaneously. As a result, SGC-VQGAN achieves SOTA performance in both reconstruction quality and various downstream tasks. Its simplicity, requiring no additional parameter learning, enables its direct application in downstream tasks, presenting significant potential.
Abstract（参考訳）: ベクトル量子化(VQ)は、離散コードブック表現を通じて特徴を決定論的に学習する手法である。近年の研究では、視覚トークン化器を用いて視覚領域を識別し、自己教師付き表現学習を行っている。しかし、これらのトークン化の顕著な制限はセマンティクスの欠如である。さらに、不均衡なコードブックの配布やコードブックの崩壊といった問題は、非効率なコードブックの利用によってパフォーマンスに悪影響を及ぼす可能性がある。これらの課題に対処するため、SGC-VQGANをセマンティックオンラインクラスタリング法で導入し、一貫性セマンティックラーニングによるトークンセマンティクスを強化する。セグメンテーションモデルによる推論結果を利用して,コードブックの崩壊問題と不均衡なトークンセマンティクスに対処し,時間空間的に一貫したセマンティクスコードブックを構築する。提案したピラミッド特徴学習パイプラインは、画像の詳細と意味の両方を同時にキャプチャするマルチレベル機能を統合している。その結果、SGC-VQGANは、再構成品質と様々な下流タスクの両方においてSOTA性能を達成する。その単純さは、追加のパラメータ学習を必要とせず、下流タスクに直接適用でき、大きな可能性を示す。

関連論文リスト

TokLIP: Marry Visual Tokens to CLIP for Multimodal Comprehension and Generation [80.90309237362526]
TokLIPは、ベクトル量子化(VQ)トークンを意味付けることで、理解を深めるビジュアルトークンライザである。 TokLIPは、低レベルの離散VQトークンライザとViTベースのトークンエンコーダを統合して、高レベルの連続的なセマンティクスをキャプチャする。
論文参考訳（メタデータ） (2025-05-08T17:12:19Z)
Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。 Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文参考訳（メタデータ） (2025-03-23T03:21:33Z)
SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation [73.98487014058286]
SemHiTokは、Semantic-Guided Hierarchical Codebookを介して統合された画像トークンである。 SemHiTokは、他の統一トークン化器と比較して256X256解像度で優れたrFIDスコアが得られることを示す。
論文参考訳（メタデータ） (2025-03-09T20:42:34Z)
BRIDLE: Generalized Self-supervised Learning with Quantization [15.121857164574704]
自己教師付き学習は、さまざまな領域にわたるラベルなしデータから意味のある表現を学ぶための強力なアプローチである。 BERTが自然言語処理において双方向の深いコンテキストを捉えることに触発されて、同様のフレームワークがオーディオなどの他のモダリティに適応している。本稿では、残留量子化を双方向学習プロセスに組み込んだ自己教師型事前学習フレームワークBRIDLEを紹介する。
論文参考訳（メタデータ） (2025-02-04T08:54:06Z)
Leveraging Joint Predictive Embedding and Bayesian Inference in Graph Self Supervised Learning [0.0]
グラフ表現学習は、ノード分類やリンク予測といったタスクの基盤として登場した。現在の自己教師付き学習(SSL)手法は、計算の非効率性、対照的な目的への依存、表現の崩壊といった課題に直面している。本稿では,意味情報と構造情報を保存しながら,対照的な目的と負のサンプリングを排除したグラフSSLのための新しい結合埋め込み予測フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-02T07:42:45Z)
Improving vision-language alignment with graph spiking hybrid Networks [10.88584928028832]
本稿では,細粒度のセマンティックな特徴を生成するために,パノプティックセマンティック・セマンティック・セマンティクスの活用を必要とする包括的ビジュアルセマンティクス表現モジュールを提案する。視覚的セマンティック情報を符号化するために,SNNとGATの相補的な利点を統合したグラフスパイキングハイブリッドネットワーク(GSHN)を提案する。
論文参考訳（メタデータ） (2025-01-31T11:55:17Z)
Incorporating Feature Pyramid Tokenization and Open Vocabulary Semantic Segmentation [8.659766913542938]
我々は、すべての粒度の理解のために、統合された知覚的および意味的トークン圧縮について研究する。本稿では,学習可能なコードブックによる多面的特徴のクラスタ化と多面的特徴の表現を目的とした特徴ピラミッドトークン化(PAT)を提案する。実験の結果,PATはVLM特徴ピラミッドの意味的直感を増強することがわかった。
論文参考訳（メタデータ） (2024-12-18T18:43:21Z)
Factorized Visual Tokenization and Generation [37.56136469262736]
本稿では,大規模なコードブックを複数の独立したサブコードブックに分解することで,VQベースのトークン化を活性化する新しい手法であるFacterized Quantization(FQ)を紹介する。このファクター化は、大規模なコードブックのルックアップの複雑さを低減し、より効率的でスケーラブルなビジュアルトークン化を可能にします。実験により,提案したFQGANモデルにより,視覚トークンの再現品質が大幅に向上し,最先端の性能が達成された。
論文参考訳（メタデータ） (2024-11-25T18:59:53Z)
Disentangling Dense Embeddings with Sparse Autoencoders [0.0]
スパースオートエンコーダ(SAE)は、複雑なニューラルネットワークから解釈可能な特徴を抽出する可能性を示している。大規模言語モデルからの高密度テキスト埋め込みに対するSAEの最初の応用の1つを提示する。その結果,解釈可能性を提供しながら意味的忠実さを保っていることが明らかとなった。
論文参考訳（メタデータ） (2024-08-01T15:46:22Z)
Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文参考訳（メタデータ） (2024-06-28T10:05:58Z)
Match me if you can: Semi-Supervised Semantic Correspondence Learning with Unpaired Images [76.47980643420375]
本稿では,意味的対応の学習に固有のデータ・ハングリー・マターが存在するという仮説に基づく。我々は,機械の監督を通じて,ペア化されたキーポイントを確実に強化する単純な機械注釈器を実証する。我々のモデルは,SPair-71k,PF-PASCAL,PF-WILLOWといった意味対応学習ベンチマークの最先端モデルを上回る。
論文参考訳（メタデータ） (2023-11-30T13:22:15Z)
MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。所望のプロパティを統一する単段および単段のMOCAを提案する。我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文参考訳（メタデータ） (2023-07-18T15:46:20Z)
SC-VAE: Sparse Coding-based Variational Autoencoder with Learned ISTA [0.6770292596301478]
そこで本研究では,ISTA (SC-VAE) を用いたスパース符号化に基づくVAEを新たに導入し,スパース符号化を可変オートエンコーダフレームワークに統合する。 2つの画像データセットに対する実験により、我々のモデルは、最先端の手法と比較して、画像再構成結果の改善を実現していることが示された。
論文参考訳（メタデータ） (2023-03-29T13:18:33Z)
Learning Context-aware Classifier for Semantic Segmentation [88.88198210948426]
本稿では,文脈認識型分類器の学習を通じて文脈ヒントを利用する。本手法はモデルに依存しないため,ジェネリックセグメンテーションモデルにも容易に適用できる。無視できる追加パラメータと+2%の推論時間だけで、小型モデルと大型モデルの両方で十分な性能向上が達成されている。
論文参考訳（メタデータ） (2023-03-21T07:00:35Z)
Vector Quantized Wasserstein Auto-Encoder [57.29764749855623]
生成的視点から深層離散表現を学習する。我々は,コードワード列上の離散分布を付与し,コードワード列上の分布をデータ分布に伝達する決定論的デコーダを学習する。 WS 距離のクラスタリングの観点と結びつけて,より優れた,より制御可能なクラスタリングソリューションを実現するための,さらなる理論を開発しています。
論文参考訳（メタデータ） (2023-02-12T13:51:36Z)
Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation [88.49669148290306]
そこで我々はAuxSegNetと呼ばれる弱教師付きマルチタスク・フレームワークを提案し,サリエンシ検出とマルチラベル画像分類を補助タスクとして活用する。同様の構造的セマンティクスに着想を得て,サリエンシとセグメンテーションの表現から,クロスタスクなグローバル画素レベルの親和性マップを学習することを提案する。学習されたクロスタスク親和性は、両方のタスクに対して改善された擬似ラベルを提供するために、唾液度予測を洗練し、CAMマップを伝播するために使用することができる。
論文参考訳（メタデータ） (2021-07-25T11:39:58Z)
Robust Training of Vector Quantized Bottleneck Models [21.540133031071438]
ベクトル量子変分自動エンコーダモデル(VQ-VAEs)を用いた離散表現の信頼性と効率的な訓練法を示す。教師なし表現学習では、変分オートエンコーダ(VAE)のような連続潜伏変数モデルの代替となる。
論文参考訳（メタデータ） (2020-05-18T08:23:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。