論文の概要: The Collapse of Patches
- arxiv url: http://arxiv.org/abs/2511.22281v1
- Date: Thu, 27 Nov 2025 10:04:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.498533
- Title: The Collapse of Patches
- Title(参考訳): 松葉杖の崩壊
- Authors: Wei Guo, Shunqi Mao, Zhuonan Liang, Heng Wang, Weidong Cai,
- Abstract要約: パッチ崩壊は、量子力学において粒子の波動関数を崩壊させるのと類似している。
対象領域の崩壊時に最も依存しているパッチを特定するために,各対象領域を再構築するパッチのサブセットをソフトに選択するオートエンコーダを学習する。
この順序を尊重するPageRankは、様々なマスク付き画像モデリング手法の恩恵を受けることを示す。
- 参考スコア(独自算出の注目度): 15.500261107186441
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Observing certain patches in an image reduces the uncertainty of others. Their realization lowers the distribution entropy of each remaining patch feature, analogous to collapsing a particle's wave function in quantum mechanics. This phenomenon can intuitively be called patch collapse. To identify which patches are most relied on during a target region's collapse, we learn an autoencoder that softly selects a subset of patches to reconstruct each target patch. Graphing these learned dependencies for each patch's PageRank score reveals the optimal patch order to realize an image. We show that respecting this order benefits various masked image modeling methods. First, autoregressive image generation can be boosted by retraining the state-of-the-art model MAR. Next, we introduce a new setup for image classification by exposing Vision Transformers only to high-rank patches in the collapse order. Seeing 22\% of such patches is sufficient to achieve high accuracy. With these experiments, we propose patch collapse as a novel image modeling perspective that promotes vision efficiency. Our project is available at https://github.com/wguo-ai/CoP .
- Abstract(参考訳): 画像中の特定のパッチを観察することは、他者の不確実性を減少させる。
それらの実現は、量子力学における粒子の波動関数の崩壊に類似した、残りの各パッチ特徴の分布エントロピーを低下させる。
この現象は直感的にはパッチ崩壊と呼ばれることがある。
対象領域の崩壊時に最も依存しているパッチを特定するために,各対象領域を再構築するパッチのサブセットをソフトに選択するオートエンコーダを学習する。
各パッチのPageRankスコアに対するこれらの学習した依存関係をグラフ化すると、イメージを実現するための最適なパッチ順が明らかになる。
この順序を尊重することは、様々なマスク付き画像モデリング手法に有効であることを示す。
まず、最先端モデルMARを再トレーニングすることで、自己回帰画像生成を促進できる。
次に、崩壊順の高階パッチのみにビジョントランスフォーマーを露出させることにより、画像分類のための新しいセットアップを導入する。
このようなパッチの22%を見ることは、高い精度を達成するのに十分である。
これらの実験により、視覚効率を高める新しい画像モデリングの視点としてパッチ崩壊を提案する。
私たちのプロジェクトはhttps://github.com/wguo-ai/CoP で利用可能です。
関連論文リスト
- Next Patch Prediction for Autoregressive Visual Generation [58.73461205369825]
我々はNext Token Prediction(NTP)パラダイムを新しいNext Patch Prediction(NPP)パラダイムに拡張する。
私たちのキーとなるアイデアは、画像トークンを高い情報密度のパッチトークンにグループ化して集約することです。
NPPは、画像Net 256x256生成ベンチマークにおいて、画像生成品質を最大1.0 FIDスコアで向上させながら、トレーニングコストを約0.6倍に削減できることを示した。
論文 参考訳(メタデータ) (2024-12-19T18:59:36Z) - Learning to Rank Patches for Unbiased Image Redundancy Reduction [80.93989115541966]
画像は、隣接する領域の画素が空間的に相関しているため、空間的冗長性に悩まされる。
既存のアプローチでは、意味の少ない画像領域を減らし、この制限を克服しようとしている。
本稿では,Learning to Rank Patchesと呼ばれる画像冗長性低減のための自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-31T13:12:41Z) - Learning to Embed Time Series Patches Independently [5.752266579415516]
近年,時系列モデリングは時系列の自己教師型表現学習戦略として注目されている。
このようなパッチをキャプチャすることは、時系列表現学習の最適戦略ではないかもしれない、と我々は主張する。
本論文では,1)他のパッチを見ることなく各パッチを自動エンコードするシンプルなパッチ再構築タスク,2)個別に各パッチを埋め込むシンプルなパッチワイド再構築タスクを提案する。
論文 参考訳(メタデータ) (2023-12-27T06:23:29Z) - PATS: Patch Area Transportation with Subdivision for Local Feature
Matching [78.67559513308787]
局所特徴マッチングは、一対のイメージ間のスパース対応を確立することを目的としている。
この問題に対処するために,PATS(Patch Area Transportation with Subdivision)を提案する。
PATSは、マッチング精度とカバレッジの両方を改善し、下流タスクにおいて優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-03-14T08:28:36Z) - SimPatch: A Nearest Neighbor Similarity Match between Image Patches [0.0]
比較的小さなパッチではなく、大きなパッチを使って、各パッチにより多くの情報が含まれるようにしています。
特徴行列を構成する個々の画像パッチの特徴を抽出するために,異なる特徴抽出機構を用いる。
最寄りのパッチは、与えられた画像に対するクエリパッチに対して、2つの異なる近接アルゴリズムを用いて計算される。
論文 参考訳(メタデータ) (2020-08-07T10:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。