論文の概要: xT: Nested Tokenization for Larger Context in Large Images
- arxiv url: http://arxiv.org/abs/2403.01915v1
- Date: Mon, 4 Mar 2024 10:29:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-06 19:19:30.578292
- Title: xT: Nested Tokenization for Larger Context in Large Images
- Title(参考訳): xt: 大きな画像のより大きなコンテキストに対するネストトークン化
- Authors: Ritwik Gupta, Shufan Li, Tyler Zhu, Jitendra Malik, Trevor Darrell,
Karttikeya Mangalam
- Abstract要約: 我々は、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのためのシンプルなフレームワークであるxTを紹介する。
我々は、真の大きな画像を理解する視覚モデルの能力を正確に反映したベンチマークデータセットのセットを選択する。
我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
- 参考スコア(独自算出の注目度): 84.10884255952409
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern computer vision pipelines handle large images in one of two
sub-optimal ways: down-sampling or cropping. These two methods incur
significant losses in the amount of information and context present in an
image. There are many downstream applications in which global context matters
as much as high frequency details, such as in real-world satellite imagery; in
such cases researchers have to make the uncomfortable choice of which
information to discard. We introduce xT, a simple framework for vision
transformers which effectively aggregates global context with local details and
can model large images end-to-end on contemporary GPUs. We select a set of
benchmark datasets across classic vision tasks which accurately reflect a
vision model's ability to understand truly large images and incorporate fine
details over large scales and assess our method's improvement on them. By
introducing a nested tokenization scheme for large images in conjunction with
long-sequence length models normally used for natural language processing, we
are able to increase accuracy by up to 8.6% on challenging classification tasks
and $F_1$ score by 11.6 on context-dependent segmentation in large images.
- Abstract(参考訳): 現代のコンピュータビジョンパイプラインは、ダウンサンプリングとクロッピングの2つの副最適化の方法の1つで大きなイメージを処理する。
これらの2つの手法は、画像に存在する情報量とコンテキストに大きな損失をもたらす。
現実世界の衛星画像のように、グローバルコンテキストが高頻度の詳細と同様に重要な下流のアプリケーションが多く存在し、そのような場合、研究者はどの情報を破棄すべきかを不快に選択しなければならない。
このフレームワークは,グローバルコンテキストを局所的な詳細で効果的に集約し,現代的なGPU上での大規模イメージをエンドツーエンドにモデル化する。
従来のビジョンタスクにまたがるベンチマークデータセットのセットを選択し、ビジョンモデルの真に大きな画像を理解する能力を正確に反映し、大規模に詳細な情報を取り込み、その方法の改善を評価する。
自然言語処理に通常使用される長シーケンス長モデルと組み合わせて大画像のネストトークン化スキームを導入することで,課題分類タスクでは最大8.6%,大画像ではコンテキスト依存セグメンテーションでは$f_1$スコアを11.6と精度を向上できる。
関連論文リスト
- Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia
Image-Caption Matching [9.56339585008373]
そこで我々は,Wikipediaイメージキャプションマッチングチャレンジに参加するためにデザインしたシステムをKaggleで紹介する。
提案手法は,Kaggleチャレンジの私的リーダーボード上で,正規化された非カウント累積ゲイン(nDCG)の0.53値を得るという,顕著な結果をもたらす。
論文 参考訳(メタデータ) (2022-06-21T14:30:14Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。
すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。
ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文 参考訳(メタデータ) (2022-04-14T17:59:31Z) - Vision Models Are More Robust And Fair When Pretrained On Uncurated
Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。
データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。
フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文 参考訳(メタデータ) (2022-02-16T22:26:47Z) - Efficient Classification of Very Large Images with Tiny Objects [15.822654320750054]
Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。
本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
論文 参考訳(メタデータ) (2021-06-04T20:13:04Z) - Rethinking Data Augmentation for Image Super-resolution: A Comprehensive
Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。
我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。
提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2020-04-01T13:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。