Fugu-MT 論文翻訳(概要): xT: Nested Tokenization for Larger Context in Large Images

論文の概要: xT: Nested Tokenization for Larger Context in Large Images

arxiv url: http://arxiv.org/abs/2403.01915v1
Date: Mon, 4 Mar 2024 10:29:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 19:19:30.578292
Title: xT: Nested Tokenization for Larger Context in Large Images
Title（参考訳）: xt: 大きな画像のより大きなコンテキストに対するネストトークン化
Authors: Ritwik Gupta, Shufan Li, Tyler Zhu, Jitendra Malik, Trevor Darrell, Karttikeya Mangalam
Abstract要約: 我々は、グローバルコンテキストを局所的な詳細で集約するビジョントランスフォーマーのためのシンプルなフレームワークであるxTを紹介する。我々は、真の大きな画像を理解する視覚モデルの能力を正確に反映したベンチマークデータセットのセットを選択する。我々は、挑戦的な分類タスクにおいて、精度を最大8.6%向上させることができる。
参考スコア（独自算出の注目度）: 84.10884255952409
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Modern computer vision pipelines handle large images in one of two sub-optimal ways: down-sampling or cropping. These two methods incur significant losses in the amount of information and context present in an image. There are many downstream applications in which global context matters as much as high frequency details, such as in real-world satellite imagery; in such cases researchers have to make the uncomfortable choice of which information to discard. We introduce xT, a simple framework for vision transformers which effectively aggregates global context with local details and can model large images end-to-end on contemporary GPUs. We select a set of benchmark datasets across classic vision tasks which accurately reflect a vision model's ability to understand truly large images and incorporate fine details over large scales and assess our method's improvement on them. By introducing a nested tokenization scheme for large images in conjunction with long-sequence length models normally used for natural language processing, we are able to increase accuracy by up to 8.6% on challenging classification tasks and $F_1$ score by 11.6 on context-dependent segmentation in large images.
Abstract（参考訳）: 現代のコンピュータビジョンパイプラインは、ダウンサンプリングとクロッピングの2つの副最適化の方法の1つで大きなイメージを処理する。これらの2つの手法は、画像に存在する情報量とコンテキストに大きな損失をもたらす。現実世界の衛星画像のように、グローバルコンテキストが高頻度の詳細と同様に重要な下流のアプリケーションが多く存在し、そのような場合、研究者はどの情報を破棄すべきかを不快に選択しなければならない。このフレームワークは,グローバルコンテキストを局所的な詳細で効果的に集約し,現代的なGPU上での大規模イメージをエンドツーエンドにモデル化する。従来のビジョンタスクにまたがるベンチマークデータセットのセットを選択し、ビジョンモデルの真に大きな画像を理解する能力を正確に反映し、大規模に詳細な情報を取り込み、その方法の改善を評価する。自然言語処理に通常使用される長シーケンス長モデルと組み合わせて大画像のネストトークン化スキームを導入することで,課題分類タスクでは最大8.6%,大画像ではコンテキスト依存セグメンテーションでは$f_1$スコアを11.6と精度を向上できる。

関連論文リスト

TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文参考訳（メタデータ） (2025-03-19T17:58:57Z)
Leopard: A Vision Language Model For Text-Rich Multi-Image Tasks [62.758680527838436]
複数のテキストリッチな画像を含む視覚言語タスクを扱うためのMLLMであるLeopardを提案する。まず、テキストリッチでマルチイメージのシナリオに合わせて、約100万の高品質なマルチモーダル命令チューニングデータをキュレートした。第2に,視覚列長の割り当てを動的に最適化する適応型高解像度マルチイメージ符号化モジュールを提案する。
論文参考訳（メタデータ） (2024-10-02T16:55:01Z)
Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像) 検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文参考訳（メタデータ） (2022-09-29T00:57:28Z)
Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (2022-08-08T09:08:40Z)
Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。 PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。 PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文参考訳（メタデータ） (2022-06-22T01:11:29Z)
Transformer-Based Multi-modal Proposal and Re-Rank for Wikipedia Image-Caption Matching [9.56339585008373]
そこで我々は,Wikipediaイメージキャプションマッチングチャレンジに参加するためにデザインしたシステムをKaggleで紹介する。提案手法は,Kaggleチャレンジの私的リーダーボード上で,正規化された非カウント累積ゲイン(nDCG)の0.53値を得るという,顕著な結果をもたらす。
論文参考訳（メタデータ） (2022-06-21T14:30:14Z)
Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文参考訳（メタデータ） (2022-04-19T17:59:45Z)
Any-resolution Training for High-resolution Image Synthesis [55.19874755679901]
生成モデルは、様々な大きさの自然画像であっても、一定の解像度で動作します。すべてのピクセルが重要であり、そのネイティブ解像度で収集された可変サイズのイメージを持つデータセットを作成する、と我々は主張する。ランダムなスケールでパッチをサンプリングし、可変出力解像度で新しいジェネレータを訓練するプロセスである。
論文参考訳（メタデータ） (2022-04-14T17:59:31Z)
Vision Models Are More Robust And Fair When Pretrained On Uncurated Images Without Supervision [38.22842778742829]
差別的な自己教師型学習は、インターネット画像の任意のランダムなグループでのトレーニングモデルを可能にする。データ前処理や事前の仮定なしで、何十億ものランダムなイメージでモデルをトレーニングします。フェアネス、分布シフト、地理的多様性、微粒化認識、画像コピー検出、および多くの画像分類データセットを含む50以上のベンチマークにおいて、我々のモデル性能を広範囲に研究し、検証した。
論文参考訳（メタデータ） (2022-02-16T22:26:47Z)
Efficient Classification of Very Large Images with Tiny Objects [15.822654320750054]
Zoom-Inネットワークと呼ばれるエンドツーエンドCNNモデルを用いて,大容量画像を小さなオブジェクトで分類する。本研究では,2つの大画像データセットと1ギガピクセルデータセットについて評価を行った。
論文参考訳（メタデータ） (2021-06-04T20:13:04Z)
Rethinking Data Augmentation for Image Super-resolution: A Comprehensive Analysis and a New Strategy [21.89072742618842]
超分解能タスクに適用された既存の拡張手法を包括的に分析する。我々は、低解像度のパッチをカットし、それに対応する高解像度の画像領域にペーストするCutBlurを提案する。提案手法は, 様々なシナリオにおいて連続的に, 性能を著しく向上させる。
論文参考訳（メタデータ） (2020-04-01T13:49:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。