論文の概要: xT: Nested Tokenization for Larger Context in Large Images
- arxiv url: http://arxiv.org/abs/2403.01915v2
- Date: Sun, 21 Jul 2024 02:33:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-24 02:30:51.677883
- Title: xT: Nested Tokenization for Larger Context in Large Images
- Title(参考訳): xT: 大規模画像におけるより大規模なコンテキストのためのネステッドトークン化
- Authors: Ritwik Gupta, Shufan Li, Tyler Zhu, Jitendra Malik, Trevor Darrell, Karttikeya Mangalam,
- Abstract要約: xTは、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのフレームワークである。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
- 参考スコア(独自算出の注目度): 79.37673340393475
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern computer vision pipelines handle large images in one of two sub-optimal ways: down-sampling or cropping. These two methods incur significant losses in the amount of information and context present in an image. There are many downstream applications in which global context matters as much as high frequency details, such as in real-world satellite imagery; in such cases researchers have to make the uncomfortable choice of which information to discard. We introduce xT, a simple framework for vision transformers which effectively aggregates global context with local details and can model large images end-to-end on contemporary GPUs. We select a set of benchmark datasets across classic vision tasks which accurately reflect a vision model's ability to understand truly large images and incorporate fine details over large scales and assess our method's improvement on them. xT is a streaming, two-stage architecture that adapts existing vision backbones and long sequence language models to effectively model large images without quadratic memory growth. We are able to increase accuracy by up to 8.6% on challenging classification tasks and $F_1$ score by 11.6 on context-dependent segmentation on images as large as 29,000 x 29,000 pixels.
- Abstract(参考訳): 現代のコンピュータビジョンパイプラインは、ダウンサンプリング(down-sampling)またはトリミング( cropping)という2つのサブ最適方法の1つで、大きなイメージを処理する。
これらの2つの手法は、画像に存在する情報量とコンテキストに大きな損失をもたらす。
現実世界の衛星画像のように、グローバルなコンテキストが高頻度で重要なアプリケーションも数多く存在するが、そのような場合、研究者はどの情報を破棄するかという不快な選択をしなければならない。
このフレームワークは,グローバルコンテキストを局所的な詳細で効果的に集約し,現代的なGPU上での大規模イメージをエンドツーエンドにモデル化する。
視覚モデルが本当に大きな画像を理解する能力を正確に反映し、大規模に詳細を組み込んだベンチマークデータセットのセットを選択し、その方法の改善を評価します。
xTはストリーミングの2段階アーキテクチャで、既存のビジョンバックボーンと長いシーケンス言語モデルを適用して、二次記憶の成長を伴わない大規模な画像を効果的にモデル化する。
29,000 x 29,000ピクセルの画像上のコンテキスト依存のセグメンテーションで、挑戦的な分類タスクで最大8.6%の精度、F_1$スコアで11.6の精度向上を実現しています。
関連論文リスト
- Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia
Image-Caption Matching [9.56339585008373]
そこで我々は,Wikipediaイメージキャプションマッチングチャレンジに参加するためにデザインしたシステムをKaggleで紹介する。
提案手法は,Kaggleチャレンジの私的リーダーボード上で,正規化された非カウント累積ゲイン(nDCG)の0.53値を得るという,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2022-06-21T14:30:14Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Efficient Classification of Very Large Images with Tiny Objects [15.822654320750054]
Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。
本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-06-04T20:13:04Z) - Rethinking Data Augmentation for Image Super-resolution: A Comprehensive
Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。
我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。
提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-04-01T13:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。