論文の概要: LookWhere? Efficient Visual Recognition by Learning Where to Look and What to See from Self-Supervision
- arxiv url: http://arxiv.org/abs/2505.18051v1
- Date: Fri, 23 May 2025 15:56:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.210027
- Title: LookWhere? Efficient Visual Recognition by Learning Where to Look and What to See from Self-Supervision
- Title(参考訳): LookWhere? 見るべき場所と見るべき場所を学習した効率的な視覚認識
- Authors: Anthony Fuller, Yousef Yassin, Junfeng Wen, Daniel G. Kyrollos, Tarek Ibrahim, James R. Green, Evan Shelhamer,
- Abstract要約: 視覚変換器はより大きく、より正確で、計算に費用がかかる。
我々は、このコストに対応するために適応計算に切り替え、計算の場所を予測することを学習する。
我々のLookWhere法は,高分解能入力を処理せずに,低分解能セレクタと高分解能抽出器を分割する。
- 参考スコア(独自算出の注目度): 10.461453853510964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision transformers are ever larger, more accurate, and more expensive to compute. The expense is even more extreme at high resolution as the number of tokens grows quadratically with the image size. We turn to adaptive computation to cope with this cost by learning to predict where to compute. Our LookWhere method divides the computation between a low-resolution selector and a high-resolution extractor without ever processing the full high-resolution input. We jointly pretrain the selector and extractor without task supervision by distillation from a self-supervised teacher, in effect, learning where and what to compute simultaneously. Unlike prior token reduction methods, which pay to save by pruning already-computed tokens, and prior token selection methods, which require complex and expensive per-task optimization, LookWhere economically and accurately selects and extracts transferrable representations of images. We show that LookWhere excels at sparse recognition on high-resolution inputs (Traffic Signs), maintaining accuracy while reducing FLOPs by up to 34x and time by 6x. It also excels at standard recognition tasks that are global (ImageNet classification) or local (ADE20K segmentation), improving accuracy while reducing time by 1.36x.
- Abstract(参考訳): 視覚変換器はより大きく、より正確で、計算に費用がかかる。
トークンの数は画像サイズに比例して2倍に増加するため、コストは高解像度ではさらに極端である。
我々は、このコストに対応するために適応計算に切り替え、計算の場所を予測することを学習する。
我々のLookWhere法は,高分解能入力を一切処理することなく,低分解能セレクタと高分解能抽出器の計算を分割する。
我々は,自己指導型教師からの蒸留により,タスクの監督なしに,セレクタと抽出器を共同で事前学習し,同時に計算する場所と場所を学習する。
既に計算済みのトークンをプルーニングすることで保存する従来のトークン削減方法や、タスクごとの最適化が複雑で高価なトークン選択方法とは異なり、LookWhereは経済的に正確に画像の転送可能な表現を選択して抽出する。
その結果,LookWhereは高分解能入力(Traffic Signs)のスパース認識に優れ,FLOPの最大34倍,時間6倍の精度を維持した。
また、グローバル(イメージネット分類)やローカル(ADE20Kセグメンテーション)の標準認識タスクにも優れ、精度は1.36倍に向上する。
関連論文リスト
- High-Frequency Prior-Driven Adaptive Masking for Accelerating Image Super-Resolution [87.56382172827526]
高周波領域は再建に最も重要である。
本稿では,アクセラレーションのためのトレーニング不要適応マスキングモジュールを提案する。
本手法は,最先端モデルのFLOPを24~43%削減する。
論文 参考訳(メタデータ) (2025-05-11T13:18:03Z) - When Less is Enough: Adaptive Token Reduction for Efficient Image Representation [2.2120851074630177]
より価値の低い特徴を、より価値の高いものから再構築できるという考えに基づいて、特徴ユーティリティを決定する新しい方法を提案する。
我々は、オートエンコーダとGumbel-Softmax選択機構を統合することで、この概念を実装した。
本結果は,適応的かつ効率的なマルチモーダルプルーニングに向けた有望な方向を示すものである。
論文 参考訳(メタデータ) (2025-03-20T19:17:08Z) - TORE: Token Recycling in Vision Transformers for Efficient Active Visual Exploration [2.177039289023855]
アクティブ・ビジュアル・エクスプロレーション(AVE)は、実世界のシナリオにおけるロボット資源の利用を最適化し、最も情報性の高い観測を順次選択する。
我々はToken Recycling (TORE)と呼ばれる新しいアプローチをAVEに導入する。
エンコーダを抽出器と集約器に分割し、抽出器はそれぞれの観察を別々に処理し、集約器に渡されるトークンの再利用を可能にする。
論文 参考訳(メタデータ) (2023-11-26T15:39:57Z) - Ideal Abstractions for Decision-Focused Learning [108.15241246054515]
本稿では,決定関連情報の損失を最小限に抑えるために,出力空間を自動的に構成する手法を提案する。
本手法は,ディープニューラルネットワークトレーニングのためのデータ取得と,閉ループ山火事管理タスクの2つの領域で実証する。
論文 参考訳(メタデータ) (2023-03-29T23:31:32Z) - Token Pooling in Vision Transformers [37.11990688046186]
視覚変換器では、自己注意は主要なボトルネックではなく、例えば、計算の80%以上が完全に接続された層に費やされている。
本稿では,画像と中間トークン表現の冗長性を効果的に活用するトークンダウンサンプリング手法Token Poolingを提案する。
実験の結果,Token Poolingは最先端のダウンサンプリングに対する費用対精度のトレードオフを大幅に改善することがわかった。
論文 参考訳(メタデータ) (2021-10-08T02:22:50Z) - Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume
Excitation [65.83008812026635]
本稿では,GCE ( Guided Cost Volume Excitation) を構築し,画像によって誘導されるコストボリュームの簡単なチャネル励磁により,性能が大幅に向上することを示す。
我々はCorrelate-and-Excite(CoEx)と呼ぶエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2021-08-12T14:32:26Z) - Sample and Computation Redistribution for Efficient Face Detection [137.19388513633484]
トレーニングデータサンプリングと計算分布戦略は、効率的で正確な顔検出の鍵です。
scrfdf34は、最高の競合製品であるTinaFaceを3.86%(ハードセットでのAP)で上回り、GPU上でVGA解像度画像でmph3$times$より高速です。
論文 参考訳(メタデータ) (2021-05-10T23:51:14Z) - Displacement-Invariant Cost Computation for Efficient Stereo Matching [122.94051630000934]
ディープラーニング手法は、前例のない不一致の精度を得ることによって、ステレオマッチングのリーダーボードを支配してきた。
しかし、その推測時間は一般的に540p画像の秒数で遅い。
本研究では,4次元特徴量を必要としないEmphdisplacement-invariant cost moduleを提案する。
論文 参考訳(メタデータ) (2020-12-01T23:58:16Z) - Unsupervised Learning of Visual Features by Contrasting Cluster
Assignments [57.33699905852397]
ペア比較の計算を必要とせず,コントラスト的手法を生かしたオンラインアルゴリズムSwaVを提案する。
本手法では,クラスタ割り当て間の一貫性を保ちながら,同時にデータをクラスタ化する。
我々の方法は大規模で小さなバッチで訓練でき、無制限のデータにスケールできる。
論文 参考訳(メタデータ) (2020-06-17T14:00:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。