論文の概要: Adapting Vision Transformers to Ultra-High Resolution Semantic Segmentation with Relay Tokens
- arxiv url: http://arxiv.org/abs/2601.05927v1
- Date: Fri, 09 Jan 2026 16:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-12 17:41:50.04265
- Title: Adapting Vision Transformers to Ultra-High Resolution Semantic Segmentation with Relay Tokens
- Title(参考訳): リレートークンを用いた超高分解能セマンティックセマンティックセグメンテーションへの視覚変換器の適用
- Authors: Yohann Perron, Vladyslav Sydorov, Christophe Pottier, Loic Landrieu,
- Abstract要約: 超高解像度画像をセグメント化するための現在のアプローチは、ウィンドウをスライドするか、ダウンサンプルし、詳細をなくしている。
視覚変換器に明示的なマルチスケール推論を導入し,局所的な詳細とグローバルな認識を同時に保存する,シンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 12.757251643358067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches for segmenting ultra high resolution images either slide a window, thereby discarding global context, or downsample and lose fine detail. We propose a simple yet effective method that brings explicit multi scale reasoning to vision transformers, simultaneously preserving local details and global awareness. Concretely, we process each image in parallel at a local scale (high resolution, small crops) and a global scale (low resolution, large crops), and aggregate and propagate features between the two branches with a small set of learnable relay tokens. The design plugs directly into standard transformer backbones (eg ViT and Swin) and adds fewer than 2 % parameters. Extensive experiments on three ultra high resolution segmentation benchmarks, Archaeoscape, URUR, and Gleason, and on the conventional Cityscapes dataset show consistent gains, with up to 15 % relative mIoU improvement. Code and pretrained models are available at https://archaeoscape.ai/work/relay-tokens/ .
- Abstract(参考訳): 超高解像度画像をセグメント化するための現在のアプローチは、ウィンドウをスライドさせ、グローバルコンテキストを破棄するか、ダウンサンプルし、詳細をなくすかのどちらかである。
本稿では,視覚変換器に明示的なマルチスケール推論を導入し,局所的な詳細とグローバルな認識を同時に保存する,シンプルで効果的な手法を提案する。
具体的には,各画像を局所的スケール(高分解能,小作物)と大域的スケール(低分解能,大作物)で並列に処理し,学習可能なリレートークンの小さなセットで2つのブランチ間で特徴を集約・伝播する。
このデザインは、標準のトランスフォーマーバックボーン(例えばViTとSwin)に直接プラグインし、パラメーターを2%以下追加する。
3つの超高分解能セグメンテーションベンチマーク、Archioscape、URUR、Gleason、および従来のCityscapesデータセットの大規模な実験は、最大15%のmIoU改善で一貫した利得を示した。
コードと事前トレーニングされたモデルは、https://archaeoscape.ai/work/relay-tokens/で利用可能だ。
関連論文リスト
- Bidirectional Multi-Scale Implicit Neural Representations for Image Deraining [47.15857899099733]
高品質な画像再構成を実現するために,エンド・ツー・エンドのマルチスケールトランスを開発した。
クローズドループ設計において、劣化した入力を持つ画素座標に基づいて、スケール内の暗黙的ニューラル表現を組み込む。
我々のアプローチはNeRD-Rainと呼ばれ、合成および実世界のベンチマークデータセットにおいて最先端のアプローチに対して好意的に実行されます。
論文 参考訳(メタデータ) (2024-04-02T01:18:16Z) - Making Vision Transformers Efficient from A Token Sparsification View [26.42498120556985]
本稿では,グローバル・ローカル・ビジョン・トランスフォーマのための新しいセマンティック・トークンViT(STViT)を提案する。
提案手法は,対象検出やインスタンスセグメンテーションにおける元のネットワークと比較して,30%以上のFLOPを削減できる。
さらに,STViTに基づいて詳細な空間情報を復元するためのSTViT-R(ecover)ネットワークを設計し,下流タスクに有効である。
論文 参考訳(メタデータ) (2023-03-15T15:12:36Z) - Representation Separation for Semantic Segmentation with Vision
Transformers [11.431694321563322]
イメージをパッチのシーケンスとして符号化するビジョントランスフォーマー(ViT)は、セマンティックセグメンテーションの新しいパラダイムをもたらす。
局所パッチレベルと大域領域レベルでの表現分離の効率的な枠組みをViTを用いたセマンティックセグメンテーションに適用する。
論文 参考訳(メタデータ) (2022-12-28T09:54:52Z) - Memory transformers for full context and high-resolution 3D Medical
Segmentation [76.93387214103863]
本稿では,この問題を克服するために,Full resolutIoN mEmory (FINE) 変換器を提案する。
FINEの基本的な考え方は、メモリトークンを学習して、フルレンジインタラクションを間接的にモデル化することだ。
BCV画像セグメンテーションデータセットの実験は、最先端のCNNやトランスフォーマーベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-10-11T10:11:05Z) - Illumination Adaptive Transformer [66.50045722358503]
軽量高速照明適応変換器(IAT)を提案する。
IATは、光変換パイプラインをローカルおよびグローバルISPコンポーネントに分解する。
我々は、複数の実世界のデータセット上でIATを広範囲に評価した。
論文 参考訳(メタデータ) (2022-05-30T06:21:52Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Three things everyone should know about Vision Transformers [67.30250766591405]
トランスフォーマーアーキテクチャは コンピュータビジョンにおいて 急速に勢いを増しています
視覚変換器の変種をシンプルかつ容易に実装できる3つの洞察を提供する。
我々は、ImageNet-1kデータセットを用いて、これらの設計選択の影響を評価し、ImageNet-v2テストセットにおける結果を確認した。
論文 参考訳(メタデータ) (2022-03-18T08:23:03Z) - EDTER: Edge Detection with Transformer [71.83960813880843]
本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-16T11:55:55Z) - Vision Transformer with Progressive Sampling [73.60630716500154]
本稿では,識別領域を特定するための反復的・漸進的なサンプリング手法を提案する。
ImageNetでスクラッチからトレーニングされた場合、PS-ViTはトップ1の精度でバニラViTよりも3.8%高いパフォーマンスを示す。
論文 参考訳(メタデータ) (2021-08-03T18:04:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。