論文の概要: SpaceJAM: a Lightweight and Regularization-free Method for Fast Joint Alignment of Images
- arxiv url: http://arxiv.org/abs/2407.11850v1
- Date: Tue, 16 Jul 2024 15:32:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 14:13:22.134541
- Title: SpaceJAM: a Lightweight and Regularization-free Method for Fast Joint Alignment of Images
- Title(参考訳): SpaceJAM: 画像の高速な関節アライメントのための軽量かつ規則化不要な方法
- Authors: Nir Barel, Ron Shapira Weber, Nir Mualem, Shahaf E. Finder, Oren Freifeld,
- Abstract要約: 教師なしの関節アライメントは、高複雑性、幾何学的歪み、局所的あるいは大域的最適性への収束といった課題によって特徴づけられる。
本稿では,JA タスクに効率と簡易さで対処する新しいアプローチである SpaceJAM について紹介する。
- 参考スコア(独自算出の注目度): 9.099291890744201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The unsupervised task of Joint Alignment (JA) of images is beset by challenges such as high complexity, geometric distortions, and convergence to poor local or even global optima. Although Vision Transformers (ViT) have recently provided valuable features for JA, they fall short of fully addressing these issues. Consequently, researchers frequently depend on expensive models and numerous regularization terms, resulting in long training times and challenging hyperparameter tuning. We introduce the Spatial Joint Alignment Model (SpaceJAM), a novel approach that addresses the JA task with efficiency and simplicity. SpaceJAM leverages a compact architecture with only 16K trainable parameters and uniquely operates without the need for regularization or atlas maintenance. Evaluations on SPair-71K and CUB datasets demonstrate that SpaceJAM matches the alignment capabilities of existing methods while significantly reducing computational demands and achieving at least a 10x speedup. SpaceJAM sets a new standard for rapid and effective image alignment, making the process more accessible and efficient. Our code is available at: https://bgu-cs-vil.github.io/SpaceJAM/.
- Abstract(参考訳): 画像のジョイントアライメント(JA)の教師なしタスクは、高複雑性、幾何学的歪み、局所的あるいは大域的最適性への収束といった課題によって実現される。
Vision Transformers (ViT) は最近 JA に価値ある機能を提供しているが、これらの問題を完全に解決するには至っていない。
その結果、研究者はしばしば高価なモデルと多くの正規化項に依存し、長いトレーニング時間と挑戦的なハイパーパラメータチューニングをもたらす。
本稿では,JA タスクに効率と単純さで対処する新しいアプローチである SpaceJAM (Spatial Joint Alignment Model) を紹介する。
SpaceJAMは16Kのトレーニング可能なパラメータしか持たないコンパクトなアーキテクチャを採用しており、正規化やアトラスのメンテナンスを必要とせずに一意に運用されている。
SPair-71KとCUBデータセットの評価は、SpaceJAMが既存の手法のアライメント能力と一致し、計算要求を大幅に削減し、少なくとも10倍のスピードアップを達成することを示した。
SpaceJAMは、高速で効果的な画像アライメントのための新しい標準を設定し、プロセスをよりアクセスしやすく効率的にする。
私たちのコードは、https://bgu-cs-vil.github.io/SpaceJAM/.comで利用可能です。
関連論文リスト
- Empowering Snapshot Compressive Imaging: Spatial-Spectral State Space Model with Across-Scanning and Local Enhancement [51.557804095896174]
AsLE-SSMという,グローバルな局所的バランスの取れたコンテキストエンコーディングとチャネル間相互作用の促進に空間スペクトルSSMを用いる状態空間モデルを導入する。
実験の結果,ASLE-SSMは既存の最先端手法よりも優れており,推定速度はTransformerベースのMSTより2.4倍速く,パラメータの0.12(M)を節約できることがわかった。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Sparser is Faster and Less is More: Efficient Sparse Attention for Long-Range Transformers [58.5711048151424]
SPARSEK Attention(SPARSEK Attention)は、計算およびメモリ障害を克服するために設計された、新しいスパースアテンション機構である。
提案手法では,各クエリに対して一定数のKVペアを選択するために,スコアリングネットワークと差別化可能なトップkマスク演算子であるSPARSEKを統合する。
実験結果から,SPARSEK注意は従来のスパースアテンション法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T15:55:59Z) - SHMamba: Structured Hyperbolic State Space Model for Audio-Visual Question Answering [5.016335384639901]
AVQA(Audio-Visual Question Answering)のマルチモーダル入力により,特徴抽出と融合処理がより困難になる。
我々は、双曲幾何学と状態空間モデルの利点を統合するために、構造化双曲状態空間モデル(SHMamba: Structured Hyperbolic State Space Model)を提案する。
提案手法は,現行のすべての主要な手法の優越性を実証し,実用的なアプリケーションシナリオに適した方法である。
論文 参考訳(メタデータ) (2024-06-14T08:43:31Z) - LInK: Learning Joint Representations of Design and Performance Spaces through Contrastive Learning for Mechanism Synthesis [15.793704096341523]
本稿では,性能と設計空間のコントラスト学習と最適化手法を統合する新しいフレームワークであるLInKを紹介する。
マルチモーダルおよび変換不変のコントラスト学習フレームワークを活用することで、LInKは複雑な物理学とメカニズムの設計表現をキャプチャする共同表現を学習する。
以上の結果から,LInKは機構設計の分野を進展させるだけでなく,他の工学分野へのコントラスト学習や最適化の適用性も拡大することが示された。
論文 参考訳(メタデータ) (2024-05-31T03:04:57Z) - Hybrid-SORT: Weak Cues Matter for Online Multi-Object Tracking [51.16677396148247]
Multi-Object Tracking (MOT) は、望まれるすべてのオブジェクトをフレーム間で検出し、関連付けることを目的としている。
本稿では,MOTにおけるこの長期的課題を,弱い手がかりを取り入れることで,効果的かつ効果的に解決できることを実証する。
提案手法は,MOT17,MOT20,特にDanceTrackなど,様々なベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2023-08-01T18:53:24Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - SpaceNet: Make Free Space For Continual Learning [15.914199054779438]
本研究では,クラスインクリメンタル学習シナリオのための新しいアーキテクチャベースのSpaceNetを提案する。
SpaceNetは、複数のニューロンで各タスクのスパース接続を圧縮する適応的な方法で、スクラッチから深層ニューラルネットワークを訓練する。
実験により,従来のタスクを忘れることに対する提案手法のロバストさと,モデルが利用可能な容量を利用する場合のSpaceNetの効率性を示す。
論文 参考訳(メタデータ) (2020-07-15T11:21:31Z) - Overlapping Spaces for Compact Graph Representations [17.919759296265]
グラフ、テキスト、画像などの構造化データを埋め込むために、様々な非自明な空間が人気を集めている。
製品空間の概念を一般化し、構成探索問題を持たない重なり合う空間を導入する。
論文 参考訳(メタデータ) (2020-07-05T20:55:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。