論文の概要: Multi-Scale Fusion for Object Representation
- arxiv url: http://arxiv.org/abs/2410.01539v1
- Date: Wed, 2 Oct 2024 13:29:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 17:14:45.654121
- Title: Multi-Scale Fusion for Object Representation
- Title(参考訳): オブジェクト表現のためのマルチスケール融合
- Authors: Rongzhen Zhao, Vivienne Wang, Juho Kannala, Joni Pajarinen,
- Abstract要約: 画像をピクセルレベルの特徴マップではなく、オブジェクトレベルの特徴ベクトルとして表現することは、高度な視覚的タスクを促進する。
既存のVAEガイダンスは、オブジェクトがピクセルサイズで変更可能であることを明示的に言及していない。
対象中心学習訓練のためのVAEガイダンスを強化するために,textitMulti-Scale Fusion (MSF)を提案する。
- 参考スコア(独自算出の注目度): 18.44580501357929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representing images or videos as object-level feature vectors, rather than pixel-level feature maps, facilitates advanced visual tasks. Object-Centric Learning (OCL) primarily achieves this by reconstructing the input under the guidance of Variational Autoencoder (VAE) intermediate representation to drive so-called \textit{slots} to aggregate as much object information as possible. However, existing VAE guidance does not explicitly address that objects can vary in pixel sizes while models typically excel at specific pattern scales. We propose \textit{Multi-Scale Fusion} (MSF) to enhance VAE guidance for OCL training. To ensure objects of all sizes fall within VAE's comfort zone, we adopt the \textit{image pyramid}, which produces intermediate representations at multiple scales; To foster scale-invariance/variance in object super-pixels, we devise \textit{inter}/\textit{intra-scale fusion}, which augments low-quality object super-pixels of one scale with corresponding high-quality super-pixels from another scale. On standard OCL benchmarks, our technique improves mainstream methods, including state-of-the-art diffusion-based ones. The source code is available in the supplemental material.
- Abstract(参考訳): 画像やビデオをピクセルレベルの特徴マップではなく、オブジェクトレベルの特徴ベクトルとして表現することは、高度な視覚的タスクを促進する。
OCL(Object-Centric Learning)は、変分オートエンコーダ(VAE)中間表現の指示で入力を再構築し、いわゆる「textit{slots}」を駆動し、できるだけ多くのオブジェクト情報を集約することで、これを実現している。
しかしながら、既存のVAEガイダンスでは、オブジェクトがピクセルサイズで変化できることに明示的に言及していない。
我々は,OCL訓練のためのVAEガイダンスを強化するために,<textit{Multi-Scale Fusion} (MSF)を提案する。
オブジェクトの超画素におけるスケール不変/分散を促進するために、あるスケールの低品質オブジェクトの超画素を別のスケールの高画質な超画素で拡大する \textit{inter}/\textit{intra-scale fusion} を考案する。
標準のOCLベンチマークでは、最先端の拡散に基づく手法を含む主流の手法が改良されている。
ソースコードは補足資料で入手できる。
関連論文リスト
- Grouped Discrete Representation for Object-Centric Learning [18.44580501357929]
我々は,オブジェクト指向学習のためのtextitGroup Discrete Representation (GDR) を提案する。
GDRは、組織化されたチャネルグルーピングを通じて特徴を属性に分解し、これらの属性をインデックスを介して個別の表現に構成する。
論文 参考訳(メタデータ) (2024-11-04T17:25:10Z) - Transcending Fusion: A Multi-Scale Alignment Method for Remote Sensing Image-Text Retrieval [37.775529830620016]
リモートセンシング画像-テキスト検索(RSITR)は、リモートセンシング(RS)ドメインにおける知識サービスとデータマイニングにおいて重要な機能である。
現在のマルチスケールRSITRアプローチは、通常、マルチスケールの融合画像特徴とテキスト特徴とを一致させるが、異なるスケールで画像とテキストのペアを別々に並べて見落としている。
本稿では,この制限を克服するために,新しいマルチスケールアライメント(MSA)手法を提案する。
論文 参考訳(メタデータ) (2024-05-29T10:19:11Z) - OV9D: Open-Vocabulary Category-Level 9D Object Pose and Size Estimation [56.028185293563325]
本稿では,新しい開集合問題,開語彙圏レベルのオブジェクトポーズとサイズ推定について検討する。
まずOO3D-9Dという大規模フォトリアリスティックなデータセットを紹介した。
次に、事前学習したDinoV2とテキストから画像への安定拡散モデルに基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:09:24Z) - Subobject-level Image Tokenization [60.80949852899857]
トランスフォーマーベースの視覚モデルは通常、イメージを入力単位として固定サイズの正方形パッチにトークン化する。
言語モデルに広く採用されているサブワードトークン化に着想を得て,サブオブジェクトレベルでの画像トークン化手法を提案する。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Hi-ResNet: Edge Detail Enhancement for High-Resolution Remote Sensing Segmentation [10.919956120261539]
高分解能リモートセンシング(HRS)セマンティックセマンティクスは、高分解能カバレッジ領域からキーオブジェクトを抽出する。
HRS画像内の同じカテゴリのオブジェクトは、多様な地理的環境におけるスケールと形状の顕著な違いを示す。
効率的なネットワーク構造を持つ高分解能リモートセンシングネットワーク(Hi-ResNet)を提案する。
論文 参考訳(メタデータ) (2023-05-22T03:58:25Z) - AutoFocusFormer: Image Segmentation off the Grid [11.257993284839621]
AutoFocusFormer (AFF) は、ローカルアテンション変換器の画像認識バックボーンである。
バランスの取れたクラスタリングモジュールによって促進される新しいポイントベースのローカルアテンションブロックを開発する。
実験の結果、AutoFocusFormer(AFF)は類似サイズのベースラインモデルよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2023-04-24T19:37:23Z) - Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial
Representation Learning [55.762840052788945]
本研究では,異なるスケールでデータ間の関係を明示的に学習する事前学習手法であるScale-MAEを提案する。
その結果,低周波画像と高周波画像の両方を再構成することで,リモートセンシング画像のマルチスケール表現が堅牢になることがわかった。
論文 参考訳(メタデータ) (2022-12-30T03:15:34Z) - CoupAlign: Coupling Word-Pixel with Sentence-Mask Alignments for
Referring Image Segmentation [104.5033800500497]
画像セグメント化の参照は、自然言語文で記述された視覚オブジェクトのすべてのピクセルをローカライズすることを目的としている。
以前の作業では、参照オブジェクトをハイライトするために、文章の埋め込みとピクセルレベルの埋め込みを簡単に調整することを学びました。
単純で効果的なマルチレベル視覚系列アライメント法であるCoupAlignを提案する。
論文 参考訳(メタデータ) (2022-12-04T08:53:42Z) - SUNet: Scale-aware Unified Network for Panoptic Segmentation [25.626882426111198]
様々なスケールのオブジェクト分割の問題を軽減するために,2つの軽量モジュールを提案する。
マルチスケールオブジェクトに適応可能な、エンドツーエンドのスケール対応統一ネットワーク(SUNet)を提案する。
論文 参考訳(メタデータ) (2022-09-07T01:40:41Z) - Improving Semantic Segmentation via Decoupled Body and Edge Supervision [89.57847958016981]
既存のセグメンテーションアプローチは、グローバルコンテキストをモデル化することでオブジェクトの内部の一貫性を改善すること、あるいはマルチスケールの特徴融合によって境界に沿ったオブジェクトの詳細を洗練することを目的としている。
本稿では,セマンティックセグメンテーションのための新しいパラダイムを提案する。
我々の洞察は、セマンティックセグメンテーションの魅力ある性能には、画像の高頻度と低頻度に対応するオブジェクトのテキストボディとテキストエッジを具体的にモデル化する必要があるということである。
さまざまなベースラインやバックボーンネットワークを備えた提案したフレームワークが,オブジェクト内部の一貫性とオブジェクト境界を向上させることを示す。
論文 参考訳(メタデータ) (2020-07-20T12:11:22Z) - Improving Few-shot Learning by Spatially-aware Matching and
CrossTransformer [116.46533207849619]
数ショット学習シナリオにおけるスケールと位置ミスマッチの影響について検討する。
本稿では,複数のスケールや場所のマッチングを効果的に行うための,空間認識型マッチング手法を提案する。
論文 参考訳(メタデータ) (2020-01-06T14:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。