論文の概要: Charm: The Missing Piece in ViT fine-tuning for Image Aesthetic Assessment
- arxiv url: http://arxiv.org/abs/2504.02522v1
- Date: Thu, 03 Apr 2025 12:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:23.671500
- Title: Charm: The Missing Piece in ViT fine-tuning for Image Aesthetic Assessment
- Title(参考訳): 画像美的評価のためのViTファインチューニングの欠如
- Authors: Fatemeh Behrad, Tinne Tuytelaars, Johan Wagemans,
- Abstract要約: 視覚変換器(ViT)は通常、ダウンスケーリングやトリミングによって得られる小さな、固定サイズの画像に基づいて訓練される。
本稿では,コンポジション,高解像度,アスペクト比,マルチスケール情報を同時に保存する新しいトークン化手法であるCharmを紹介する。
Charmは画像美的評価のためのViT性能と一般化性を改善する。
- 参考スコア(独自算出の注目度): 36.633379840639314
- License:
- Abstract: The capacity of Vision transformers (ViTs) to handle variable-sized inputs is often constrained by computational complexity and batch processing limitations. Consequently, ViTs are typically trained on small, fixed-size images obtained through downscaling or cropping. While reducing computational burden, these methods result in significant information loss, negatively affecting tasks like image aesthetic assessment. We introduce Charm, a novel tokenization approach that preserves Composition, High-resolution, Aspect Ratio, and Multi-scale information simultaneously. Charm prioritizes high-resolution details in specific regions while downscaling others, enabling shorter fixed-size input sequences for ViTs while incorporating essential information. Charm is designed to be compatible with pre-trained ViTs and their learned positional embeddings. By providing multiscale input and introducing variety to input tokens, Charm improves ViT performance and generalizability for image aesthetic assessment. We avoid cropping or changing the aspect ratio to further preserve information. Extensive experiments demonstrate significant performance improvements on various image aesthetic and quality assessment datasets (up to 8.1 %) using a lightweight ViT backbone. Code and pre-trained models are available at https://github.com/FBehrad/Charm.
- Abstract(参考訳): 可変サイズの入力を処理するビジョン変換器(ViT)の容量は、計算複雑性とバッチ処理の制限によって制限されることが多い。
その結果、ViTは通常、ダウンスケーリングや収穫によって得られる小さな、固定サイズの画像に基づいて訓練される。
計算負担を軽減する一方で、これらの手法は重要な情報損失をもたらし、画像美的評価のようなタスクに悪影響を及ぼす。
本稿では,コンポジション,高解像度,アスペクト比,マルチスケール情報を同時に保存する新しいトークン化手法であるCharmを紹介する。
Charmは、他の領域をダウンスケールしながら、特定の領域における高解像度の詳細を優先順位付けし、重要な情報を取り入れながら、ViTに対する短い固定サイズの入力シーケンスを可能にする。
Charmは、トレーニング済みのViTとその学習された位置埋め込みと互換性があるように設計されている。
マルチスケールな入力と入力トークンへの多様性の導入により、Charmは画像美的評価のためのViT性能と一般化性を改善した。
我々は情報保存のために、収穫やアスペクト比の変更を避けます。
大規模な実験では、軽量なViTバックボーンを使用して、さまざまな画像美学および品質評価データセット(最大8.1%)において、大幅なパフォーマンス向上が示されている。
コードと事前訓練されたモデルはhttps://github.com/FBehrad/Charm.comで入手できる。
関連論文リスト
- You Only Need Less Attention at Each Stage in Vision Transformers [19.660385306028047]
ViT(Vision Transformer)は、自己認識モジュールを通じて画像のグローバルな情報をキャプチャする。
本稿では,各段階の注意操作のみを演算するLose-Attention Vision Transformer (LaViT)を提案する。
我々のアーキテクチャは、分類、検出、セグメンテーションを含む様々な視覚タスクにおいて、例外的な性能を示す。
論文 参考訳(メタデータ) (2024-06-01T12:49:16Z) - No Token Left Behind: Efficient Vision Transformer via Dynamic Token
Idling [55.203866875294516]
視覚変換器(ViT)はコンピュータビジョンタスクにおいて優れた性能を示した。
ViTの計算負担を軽減するために,様々なトークンプルーニング技術が導入されている。
性能と効率の優れたトレードオフを実現するための動的トークンアイドルベースのIdleViTを提案する。
論文 参考訳(メタデータ) (2023-10-09T12:10:41Z) - MSViT: Dynamic Mixed-Scale Tokenization for Vision Transformers [14.787864686489032]
画像領域毎に最適なトークンスケールを選択する条件ゲーティング機構を導入する。
我々のゲーティングモジュールは、粗いパッチレベルでローカルに動作しているにもかかわらず意味のある意味を学習できることを示す。
トークンプルーニングとは対照的に、MSViTは入力に関する情報を失うことはないため、密集したタスクに容易に適用できる。
論文 参考訳(メタデータ) (2023-07-05T14:22:31Z) - ViT-FOD: A Vision Transformer based Fine-grained Object Discriminator [21.351034332423374]
細粒度画像分類(FGVC)タスクのための新しいViTに基づく細粒度物体識別器を提案する。
ViTバックボーンの他に、APC(Attention Patch Combination)、CRF(Critical Regions Filter)、CTI(Complementary Tokens Integration)という3つの新しいコンポーネントが導入されている。
我々は広く使われているデータセットに関する包括的な実験を行い、その結果、ViT-FODが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2022-03-24T02:34:57Z) - Coarse-to-Fine Vision Transformer [83.45020063642235]
性能を維持しながら計算負担を軽減するための粗視変換器(CF-ViT)を提案する。
提案するCF-ViTは,近代的なViTモデルにおける2つの重要な観測によって動機付けられている。
CF-ViTはLV-ViTのFLOPを53%削減し,スループットも2.01倍に向上した。
論文 参考訳(メタデータ) (2022-03-08T02:57:49Z) - When Vision Transformers Outperform ResNets without Pretraining or
Strong Data Augmentations [111.44860506703307]
Vision Transformer (ViTs) と既存のVisionNetsは、ハンドワイヤ機能やインダクティブスループットを汎用神経アーキテクチャに置き換えようとしている。
本稿では、損失幾何学のレンズからViTとRes-Mixersを解析し、トレーニングおよび推論時のモデルのデータ効率を改善することを目的とする。
最初の数層では、スペーサー活動ニューロンの頑健性が改善していることが示されている。
その結果、ViTsは、大規模な事前トレーニングや強力なデータ拡張なしに、ImageNet上でスクラッチからトレーニングした時に、同様のサイズと滑らかさのネットより優れています。
論文 参考訳(メタデータ) (2021-06-03T02:08:03Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。