論文の概要: REOrdering Patches Improves Vision Models
- arxiv url: http://arxiv.org/abs/2505.23751v1
- Date: Thu, 29 May 2025 17:59:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.079865
- Title: REOrdering Patches Improves Vision Models
- Title(参考訳): Reordering Patchesはビジョンモデルを改善する
- Authors: Declan Kutscher, David M. Chan, Yutong Bai, Trevor Darrell, Ritwik Gupta,
- Abstract要約: パッチ順序がそのような設定におけるモデル性能に大きく影響していることが示される。
本稿では,タスク最適パッチ順序を見つけるためのフレームワークであるREOrderを提案する。
Re Orderは、ImageNet-1K上の行マジョールの順序を最大3.01%改善し、世界の関数マップを13.35%改善した。
- 参考スコア(独自算出の注目度): 50.24865821590156
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequence models such as transformers require inputs to be represented as one-dimensional sequences. In vision, this typically involves flattening images using a fixed row-major (raster-scan) order. While full self-attention is permutation-equivariant, modern long-sequence transformers increasingly rely on architectural approximations that break this invariance and introduce sensitivity to patch ordering. We show that patch order significantly affects model performance in such settings, with simple alternatives like column-major or Hilbert curves yielding notable accuracy shifts. Motivated by this, we propose REOrder, a two-stage framework for discovering task-optimal patch orderings. First, we derive an information-theoretic prior by evaluating the compressibility of various patch sequences. Then, we learn a policy over permutations by optimizing a Plackett-Luce policy using REINFORCE. This approach enables efficient learning in a combinatorial permutation space. REOrder improves top-1 accuracy over row-major ordering on ImageNet-1K by up to 3.01% and Functional Map of the World by 13.35%.
- Abstract(参考訳): 変換器のようなシーケンスモデルでは、入力を1次元のシーケンスとして表現する必要がある。
視覚では、通常は固定された行マジョル(ラスタースキャン)の順序で画像を平らにする。
完全な自己アテンションは置換同変であるが、現代のロングシーケンストランスフォーマーは、この不変性を破り、パッチの順序付けに敏感なアーキテクチャの近似にますます依存している。
パッチ順序がそのような設定におけるモデル性能に大きく影響することを示し、カラムメージャーやヒルベルト曲線のような単純な代替手段が顕著な精度変化をもたらすことを示した。
そこで本研究では,タスク最適パッチオーダを見つけるための2段階フレームワークであるREOrderを提案する。
まず、様々なパッチシーケンスの圧縮性を評価することにより、情報理論の先行性を導出する。
そして,REINFORCEを用いてPlackett-Luceポリシーを最適化することにより,置換に関するポリシーを学習する。
このアプローチは、組合せ置換空間における効率的な学習を可能にする。
Re Orderは、ImageNet-1K上の行メージャーの順序を最大3.01%改善し、世界の関数マップを13.35%改善した。
関連論文リスト
- Autoregressive Image Generation with Randomized Parallel Decoding [23.714192351237628]
ARPGは、ランダム化された並列生成を可能にする新しい視覚的自己回帰モデルである。
提案手法は,64ステップで1.94のFIDを達成し,スループットを20倍以上に向上させる。
論文 参考訳(メタデータ) (2025-03-13T17:19:51Z) - Texture, Shape and Order Matter: A New Transformer Design for Sequential DeepFake Detection [57.100891917805086]
シーケンシャルディープフェイク検出は、順番に操作シーケンスを予測する新しいタスクである。
本稿では, テクスチャ, 形状, 操作順序の3つの視点を探索し, TSOM と呼ばれる新しいトランスフォーマーの設計について述べる。
論文 参考訳(メタデータ) (2024-04-22T04:47:52Z) - A Strong Baseline for Point Cloud Registration via Direct Superpoints Matching [7.308509114539376]
本稿では,グローバルなマッチング方式でスーパーポイントの対応を見つけるための,シンプルで効果的なベースラインを提案する。
我々の単純で効果的なベースラインは、3つのデータセットの最先端メソッドと同等かそれ以上の結果を示している。
論文 参考訳(メタデータ) (2023-07-03T21:33:40Z) - Ray-Patch: An Efficient Querying for Light Field Transformers [10.859910783551937]
ターゲットビューに暗黙の表現をデコードするトランスフォーマーを効率的にクエリする新しいモデルであるRay-Patchクエリを提案する。
我々のRay-Patchデコーディングは計算フットプリントを減らし、従来のモデルに比べて1桁の推論速度を増大させる。
論文 参考訳(メタデータ) (2023-05-16T16:03:27Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - ExpansionNet: exploring the sequence length bottleneck in the
Transformer for Image Captioning [0.0]
本稿では,入力シーケンスを動的あるいは静的に,異なるシーケンス長を持つ新しいメソッドに変換する拡張メカニズム'を提案する。
このような手法を利用して,MS-COCO 2014データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-07-07T14:37:02Z) - Short Range Correlation Transformer for Occluded Person
Re-Identification [4.339510167603376]
PFTと呼ばれる部分的特徴変換器に基づく人物識別フレームワークを提案する。
提案したPFTは3つのモジュールを用いて視覚変換器の効率を向上する。
包括的および包括的再同定データセットに対する実験結果から,提案したPFTネットワークが一貫した性能を実現することを示す。
論文 参考訳(メタデータ) (2022-01-04T11:12:39Z) - NP-DRAW: A Non-Parametric Structured Latent Variable Modelfor Image
Generation [139.8037697822064]
NP-DRAWと呼ばれる画像生成のための非パラメトリック構造化潜在変数モデルを提案する。
後続のキャンバスをパーツ単位で順次描画し、それをキャンバスからデコードする。
論文 参考訳(メタデータ) (2021-06-25T05:17:55Z) - IOT: Instance-wise Layer Reordering for Transformer Structures [173.39918590438245]
トランスフォーマの固定層順序の仮定を分解し,モデル構造にインスタンス単位の層順序変更を導入する。
当社の手法はTransformer以外のアーキテクチャにも適用可能です。
論文 参考訳(メタデータ) (2021-03-05T03:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。