Fugu-MT 論文翻訳(概要): Region-Based Representations Revisited

論文の概要: Region-Based Representations Revisited

arxiv url: http://arxiv.org/abs/2402.02352v3
Date: Fri, 26 Apr 2024 19:53:22 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-30 23:45:39.108139
Title: Region-Based Representations Revisited
Title（参考訳）: 地域的表現の再考
Authors: Michal Shlapentokh-Rothman, Ansel Blume, Yao Xiao, Yuqun Wu, Sethuraman T V, Heyi Tao, Jae Yong Lee, Wilfredo Torres, Yu-Xiong Wang, Derek Hoiem,
Abstract要約: SAMのような最近のクラスに依存しないセグメンタは、DINOv2のような強力な教師なし表現と効果的に組み合わせることができることを示す。表現のコンパクトさは、多くの画像にまたがる推論を必要とするビデオ解析や他の問題にも適している。
参考スコア（独自算出の注目度）: 34.01784145403097
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We investigate whether region-based representations are effective for recognition. Regions were once a mainstay in recognition approaches, but pixel and patch-based features are now used almost exclusively. We show that recent class-agnostic segmenters like SAM can be effectively combined with strong unsupervised representations like DINOv2 and used for a wide variety of tasks, including semantic segmentation, object-based image retrieval, and multi-image analysis. Once the masks and features are extracted, these representations, even with linear decoders, enable competitive performance, making them well suited to applications that require custom queries. The compactness of the representation also makes it well-suited to video analysis and other problems requiring inference across many images.
Abstract（参考訳）: 地域ベース表現が認識に有効かどうかを検討する。リージョンは、かつては認識アプローチのメインステイだったが、ピクセルとパッチベースの機能は、ほぼ完全に使用されている。近年のSAMのようなクラスに依存しないセグメンタは,DINOv2のような強力な教師なし表現と効果的に結合することができ,セグメンテーションやオブジェクトベース画像検索,マルチイメージ解析など,多種多様なタスクに利用できることを示す。仮面と特徴が抽出されると、これらの表現は線形デコーダを使っても競合性能を実現し、カスタムクエリを必要とするアプリケーションに適している。表現のコンパクトさは、多くの画像にまたがる推論を必要とするビデオ解析や他の問題にも適している。

関連論文リスト

X-SAM: From Segment Anything to Any Segmentation [63.79182974315084]
大きな言語モデル(LLM)は、広い知識表現において強力な能力を示すが、本質的にはピクセルレベルの知覚的理解において不十分である。テキスト化からテキスト化まで,セグメンテーションパラダイムを拡張したマルチモーダル大規模言語モデルフレームワークであるX-SAMを提案する。インタラクティブな視覚的プロンプトで全てのインスタンスオブジェクトをセグメンテーションし、視覚的グラウンドでピクセルワイドな解釈能力を持つMLLMに権限を与える、Visual GrounDed (VGD)セグメンテーションと呼ばれる新しいセグメンテーションタスクを提案する。
論文参考訳（メタデータ） (2025-08-06T17:19:10Z)
Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文参考訳（メタデータ） (2024-09-26T16:49:58Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
R-MAE: Regions Meet Masked Autoencoders [113.73147144125385]
我々は、自己教師付き画像表現学習のための単語の潜在的な視覚的類似として領域を探索する。生成前トレーニングベースラインであるMasked Autoencoding (MAE) に触発されて, 画素群や領域群から学習するためのマスク付き領域オートエンコーディングを提案する。
論文参考訳（メタデータ） (2023-06-08T17:56:46Z)
Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文参考訳（メタデータ） (2022-12-06T21:42:05Z)
i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? [26.146459754995597]
マスク付き画像モデリング(MIM)は視覚領域における自己監督型事前学習の強力なアプローチとして認識されている。本稿では,表現能力を高めるために,インタラクティブなMasked Autoencoders (i-MAE) フレームワークを提案する。潜在表現の特徴を質的に解析することに加えて,線形分離性の存在と潜在空間における意味論の程度について検討する。
論文参考訳（メタデータ） (2022-10-20T17:59:54Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
AF$_2$: Adaptive Focus Framework for Aerial Imagery Segmentation [86.44683367028914]
航空画像のセグメンテーションにはいくつかの独特な課題があり、中でも最も重要なものは前景と背景のアンバランスにある。本稿では,階層的なセグメンテーション手法を採用し,マルチスケール表現を適応的に活用するAdaptive Focus Framework (AF$)を提案する。 AF$は、広く使われている3つの航空ベンチマークの精度を大幅に改善した。
論文参考訳（メタデータ） (2022-02-18T10:14:45Z)
Region Comparison Network for Interpretable Few-shot Image Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文参考訳（メタデータ） (2020-09-08T07:29:05Z)
CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。 PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2020-03-24T04:55:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。