論文の概要: REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders
- arxiv url: http://arxiv.org/abs/2505.18153v1
- Date: Fri, 23 May 2025 17:59:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.270056
- Title: REN: Fast and Efficient Region Encodings from Patch-Based Image Encoders
- Title(参考訳): REN: パッチベースのイメージエンコーダによる高速かつ効率的な領域エンコーディング
- Authors: Savya Khosla, Sethuraman TV, Barnett Lee, Alexander Schwing, Derek Hoiem,
- Abstract要約: Region Network (REN) は、ポイントプロンプトを用いて領域ベースの画像表現を生成するための高速で効果的なモデルである。
RENは、リージョントークンを直接生成する軽量モジュールを使用して、このボトルネックをバイパスする。
これはいくつかのクロスアテンションブロックを使用し、ポイントプロンプトをクエリとして取り、パッチベースのイメージエンコーダからキーと値として機能してリージョントークンを生成する。
- 参考スコア(独自算出の注目度): 52.61034140869803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce the Region Encoder Network (REN), a fast and effective model for generating region-based image representations using point prompts. Recent methods combine class-agnostic segmenters (e.g., SAM) with patch-based image encoders (e.g., DINO) to produce compact and effective region representations, but they suffer from high computational cost due to the segmentation step. REN bypasses this bottleneck using a lightweight module that directly generates region tokens, enabling 60x faster token generation with 35x less memory, while also improving token quality. It uses a few cross-attention blocks that take point prompts as queries and features from a patch-based image encoder as keys and values to produce region tokens that correspond to the prompted objects. We train REN with three popular encoders-DINO, DINOv2, and OpenCLIP-and show that it can be extended to other encoders without dedicated training. We evaluate REN on semantic segmentation and retrieval tasks, where it consistently outperforms the original encoders in both performance and compactness, and matches or exceeds SAM-based region methods while being significantly faster. Notably, REN achieves state-of-the-art results on the challenging Ego4D VQ2D benchmark and outperforms proprietary LMMs on Visual Haystacks' single-needle challenge. Code and models are available at: https://github.com/savya08/REN.
- Abstract(参考訳): 本稿では,ポイントプロンプトを用いた領域ベース画像表現の高速かつ効率的な生成モデルであるRerea Encoder Network (REN)を紹介する。
近年の手法では,コンパクトで効率的な領域表現を生成するために,クラス非依存のセグメンタ(例えばSAM)とパッチベースのイメージエンコーダ(例えばDINO)を組み合わせているが,セグメンテーションのステップによって計算コストが高い。
RENは、リージョントークンを直接生成する軽量モジュールを使用して、このボトルネックを回避し、35倍のメモリで60倍高速なトークン生成を可能にし、トークンの品質も向上した。
これはいくつかのクロスアテンションブロックを使用して、ポイントプロンプトをクエリとして取り、パッチベースのイメージエンコーダからキーと値として機能し、プロンプトされたオブジェクトに対応するリージョントークンを生成する。
我々は、DINO、DINOv2、OpenCLIPの3つの人気のあるエンコーダでRENをトレーニングし、専用トレーニングなしで他のエンコーダにも拡張可能であることを示す。
セマンティックセグメンテーションと検索タスクでRENを評価し、性能とコンパクト性の両方において元のエンコーダを一貫して上回り、SAMベースの領域法にマッチまたは上回りながら、大幅に高速である。
特に、RENは、挑戦的なEgo4D VQ2Dベンチマークに関する最先端の結果を達成し、Visual HaystacksのシングルニードルチャレンジでプロプライエタリなLMMを上回っている。
コードとモデルは、https://github.com/savya08/REN.comで入手できる。
関連論文リスト
- SED: A Simple Encoder-Decoder for Open-Vocabulary Semantic Segmentation [91.91385816767057]
オープンボキャブラリセマンティックセグメンテーションは、ピクセルをオープンなカテゴリの集合から異なるセマンティックグループに区別する試みである。
オープン語彙セマンティックセグメンテーションのための単純なエンコーダデコーダSEDを提案する。
SED法では、ADE20KではmIoUスコアが31.6%、A6000では画像あたり82ミリ秒(ms$)のカテゴリが150である。
論文 参考訳(メタデータ) (2023-11-27T05:00:38Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Dynamic Neural Representational Decoders for High-Resolution Semantic
Segmentation [98.05643473345474]
動的ニューラル表現デコーダ(NRD)と呼ばれる新しいデコーダを提案する。
エンコーダの出力上の各位置がセマンティックラベルの局所的なパッチに対応するので、この研究では、これらの局所的なパッチをコンパクトなニューラルネットワークで表現する。
このニューラル表現により、意味ラベル空間に先行する滑らかさを活用することができ、デコーダをより効率的にすることができる。
論文 参考訳(メタデータ) (2021-07-30T04:50:56Z) - HyperSeg: Patch-wise Hypernetwork for Real-time Semantic Segmentation [95.47168925127089]
本稿では,エンコーダがデコーダのパラメータ(重み)をエンコードして生成する,新しいリアルタイムセマンティックセグメンテーションネットワークを提案する。
我々は、より高レベルなコンテキスト特徴を描画するためのネストされたU-Netからなる新しいタイプのハイパーネットワークを設計する。
論文 参考訳(メタデータ) (2020-12-21T18:58:18Z) - EfficientFCN: Holistically-guided Decoding for Semantic Segmentation [49.27021844132522]
最先端セマンティックセマンティックセグメンテーションアルゴリズムは主に拡張されたFully Convolutional Networks (DilatedFCN)に基づいている
本稿では,拡張畳み込みのないイメージネット事前学習ネットワークをバックボーンとする,効率的なFCNを提案する。
このようなフレームワークは、計算コストの1/3しか持たない最先端の手法に比べて、同等またはそれ以上の性能を達成する。
論文 参考訳(メタデータ) (2020-08-24T14:48:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。