Fugu-MT 論文翻訳(概要): NARAIM: Native Aspect Ratio Autoregressive Image Models

論文の概要: NARAIM: Native Aspect Ratio Autoregressive Image Models

arxiv url: http://arxiv.org/abs/2410.10012v2
Date: Wed, 04 Dec 2024 22:21:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-06 20:43:01.682577
Title: NARAIM: Native Aspect Ratio Autoregressive Image Models
Title（参考訳）: NARAIM: ネイティブアスペクト比自動回帰画像モデル
Authors: Daniel Gallo Fernández, Robert van der Klis, Răzvan-Andrei Matişan, Janusz Partyka, Efstratios Gavves, Samuele Papa, Phillip Lippe,
Abstract要約: NARAIMは自己回帰的対象を事前学習した視覚モデルである。ネイティブアスペクト比を維持することにより、元の空間的コンテキストを保存し、視覚情報を解釈するモデルの能力を高める。
参考スコア（独自算出の注目度）: 26.26674614731835
License: http://creativecommons.org/licenses/by/4.0/
Abstract: While vision transformers are able to solve a wide variety of computer vision tasks, no pre-training method has yet demonstrated the same scaling laws as observed in language models. Autoregressive models show promising results, but are commonly trained on images that are cropped or transformed into square images, which distorts or destroys information present in the input. To overcome this limitation, we propose NARAIM, a vision model pre-trained with an autoregressive objective that uses images in their native aspect ratio. By maintaining the native aspect ratio, we preserve the original spatial context, thereby enhancing the model's ability to interpret visual information. In our experiments, we show that maintaining the aspect ratio improves performance on a downstream classification task.
Abstract（参考訳）: 視覚変換器は様々なコンピュータビジョンタスクを解くことができるが、事前学習法は言語モデルで見られるようなスケーリング法則をまだ示していない。自己回帰モデルは有望な結果を示すが、通常、トリミングされたり、正方形に変換された画像に基づいて訓練され、入力に存在する情報を歪ませたり破壊したりする。この制限を克服するために,NARAIMという視覚モデルを提案する。ネイティブアスペクト比を維持することにより、元の空間的コンテキストを保存し、視覚情報を解釈するモデルの能力を高める。実験では, アスペクト比の維持が下流分類タスクの性能を向上させることを示す。

関連論文リスト

Implicit Neural Representation Facilitates Unified Universal Vision Encoding [11.947746726150001]
第一種モデルは、認識と生成に同時に役立つ表現を学習する。我々は、暗黙のニューラル表現のためのハイパーネットワークとしてモデルをトレーニングし、高速で正確な再構築のために画像の重みをモデルにマッピングすることを学ぶ。このモデルは、様々な視覚的タスクに優れた性能を持つ前例のない圧縮埋め込み空間も学習する。
論文参考訳（メタデータ） (2026-01-20T18:59:57Z)
GPTFace: Generative Pre-training of Facial-Linguistic Transformer by Span Masking and Weakly Correlated Text-image Data [53.92883885331805]
本稿では,大規模なWeb構築データを活用した顔知識学習のための生成事前学習モデルを提案する。また, 顔属性編集, 表情操作, マスク除去, 写真インペイントなど, 幅広い顔編集作業にも適用可能である。
論文参考訳（メタデータ） (2025-10-21T06:55:44Z)
Image Reconstruction as a Tool for Feature Analysis [2.0249250133493195]
本稿では,画像再構成による視覚特徴の解釈のための新しい手法を提案する。画像ベースタスクで事前訓練されたエンコーダは、非画像タスクで訓練されたものよりも、はるかに多くの画像情報を保持することを示す。我々のアプローチはどんな視覚エンコーダにも適用でき、特徴空間の内部構造に光を遮ることができる。
論文参考訳（メタデータ） (2025-06-09T14:32:18Z)
Sensitive Image Classification by Vision Transformers [1.9598097298813262]
ビジョントランスモデルは自己認識機構を利用して、文脈的局所要素間のグローバルな相互作用をキャプチャする。本研究では,様々な視覚変換器モデルと従来のトレーニング済みResNetモデルの比較分析を行った。その結果、ビジョントランスフォーマーネットワークは、事前訓練されたベンチマークモデルを超え、優れた分類と検出能力を示した。
論文参考訳（メタデータ） (2024-12-21T02:34:24Z)
Helping Hands: An Object-Aware Ego-Centric Video Recognition Model [60.350851196619296]
オブジェクト認識デコーダを導入し、エゴ中心の動画におけるエゴ中心の表現の性能を向上させる。このモデルは,エゴ認識ビデオモデルの代替として機能し,視覚テキストのグラウンド化による性能向上を図っている。
論文参考訳（メタデータ） (2023-08-15T17:58:11Z)
Training-free Diffusion Model Adaptation for Variable-Sized Text-to-Image Synthesis [45.19847146506007]
拡散モデル(DM)は近年,テキスト・画像合成における最先端性能に注目されている。本稿では,視覚的忠実度を維持しながら多彩性を扱うためにテキスト・画像拡散モデルを適用することに焦点を当てる。
論文参考訳（メタデータ） (2023-06-14T17:23:07Z)
GPT4Image: Can Large Pre-trained Models Help Vision Models on Perception Tasks? [51.22096780511165]
本稿では,大規模な事前学習モデルから抽出した知識を利用して,CNN や ViT などのモデルが拡張表現を学習するのを支援する新しい学習パラダイムを提案する。我々は、詳細な記述を事前訓練されたエンコーダに入力し、画像の内容をエンコードするリッチなセマンティック情報でテキスト埋め込みを抽出する。
論文参考訳（メタデータ） (2023-06-01T14:02:45Z)
Exploring Stochastic Autoregressive Image Modeling for Visual Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文参考訳（メタデータ） (2022-12-03T13:04:29Z)
Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文参考訳（メタデータ） (2022-08-08T09:08:40Z)
Pro-tuning: Unified Prompt Tuning for Vision Tasks [133.12978197265596]
ファインチューニングは、トレーニング済みの視覚モデルを利用して下流タスクを実行するデファクトアプローチである。本研究では,様々な下流視覚タスクに凍結視覚モデルを適用するために,パラメータ効率のよいプロンプトチューニング(Pro-tuning)を提案する。
論文参考訳（メタデータ） (2022-07-28T21:09:31Z)
Masked Image Modeling with Denoising Contrast [30.31920660487222]
マスク付き画像モデリングは、視覚変換器の最先端性能でこの研究のラインを独占している。画像内画像間のコントラスト制約を生成するための,新しい事前学習手法であるConMIMを導入する。 ConMIM-pretrained vision Transformer with various scales achieve promising results on downstream image classification, semantic segmentation, object detection, and instance segmentation task。
論文参考訳（メタデータ） (2022-05-19T15:22:29Z)
Stereopagnosia: Fooling Stereo Networks with Adversarial Perturbations [71.00754846434744]
知覚不能な加法的摂動は,差分マップを著しく変更できることを示す。敵データ拡張に使用すると、我々の摂動はより堅牢なトレーニングされたモデルをもたらすことを示す。
論文参考訳（メタデータ） (2020-09-21T19:20:09Z)
Encoding Robustness to Image Style via Adversarial Feature Perturbations [72.81911076841408]
我々は、画像画素ではなく特徴統計を直接摂動することで、頑健なモデルを生成することで、敵の訓練に適応する。提案手法であるAdvBN(Adversarial Batch Normalization)は,トレーニング中に最悪の機能摂動を発生させる単一ネットワーク層である。
論文参考訳（メタデータ） (2020-09-18T17:52:34Z)
Distilling Visual Priors from Self-Supervised Learning [24.79633121345066]
畳み込みニューラルネットワーク(CNN)は、小さなトレーニングデータセットに適合する傾向にある。データ不足条件下での画像分類のためのCNNモデルの一般化能力を向上させるために,自己教師付き学習と知識蒸留を活用した2相パイプラインを提案する。
論文参考訳（メタデータ） (2020-08-01T13:07:18Z)
Self-Supervised Linear Motion Deblurring [112.75317069916579]
深層畳み込みニューラルネットワークは、画像の劣化の最先端技術である。本稿では,自己監督型動作遅延に対する識別可能なreblurモデルを提案する。我々の実験は、自己監督された単一画像の劣化が本当に実現可能であることを実証した。
論文参考訳（メタデータ） (2020-02-10T20:15:21Z)
Text-to-Image Generation with Attention Based Recurrent Neural Networks [1.2599533416395765]
我々は,安定なキャプションベース画像生成モデルを構築した。実験はMicrosoftデータセット上で行われる。その結果,提案手法は現代の手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2020-01-18T12:19:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。