Fugu-MT 論文翻訳(概要): CATs++: Boosting Cost Aggregation with Convolutions and Transformers

論文の概要: CATs++: Boosting Cost Aggregation with Convolutions and Transformers

arxiv url: http://arxiv.org/abs/2202.06817v1
Date: Mon, 14 Feb 2022 15:54:58 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-15 20:16:43.076447
Title: CATs++: Boosting Cost Aggregation with Convolutions and Transformers
Title（参考訳）: CATs++: 畳み込みとトランスフォーマーによるコスト集約を促進する
Authors: Seokju Cho, Sunghwan Hong, Seungryong Kim
Abstract要約: 本稿では,変換器を用いたコストアグリゲーション(CAT)を導入し,初期相関マップ間のグローバルコンセンサスを探索する。また、標準変圧器の使用による計算コストの増大など、CATが直面する可能性のあるいくつかの制約を緩和するため、CATs++を提案する。提案手法は従来の最先端手法を大きなマージンで上回り、全てのベンチマークに対して新しい最先端手法を設定できる。
参考スコア（独自算出の注目度）: 31.22435282922934
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Cost aggregation is a highly important process in image matching tasks, which aims to disambiguate the noisy matching scores. Existing methods generally tackle this by hand-crafted or CNN-based methods, which either lack robustness to severe deformations or inherit the limitation of CNNs that fail to discriminate incorrect matches due to limited receptive fields and inadaptability. In this paper, we introduce Cost Aggregation with Transformers (CATs) to tackle this by exploring global consensus among initial correlation map with the help of some architectural designs that allow us to fully enjoy global receptive fields of self-attention mechanism. Also, to alleviate some of the limitations that CATs may face, i.e., high computational costs induced by the use of a standard transformer that its complexity grows with the size of spatial and feature dimensions, which restrict its applicability only at limited resolution and result in rather limited performance, we propose CATs++, an extension of CATs. Our proposed methods outperform the previous state-of-the-art methods by large margins, setting a new state-of-the-art for all the benchmarks, including PF-WILLOW, PF-PASCAL, and SPair-71k. We further provide extensive ablation studies and analyses.
Abstract（参考訳）: コスト集約は画像マッチングタスクにおいて非常に重要なプロセスであり、ノイズマッチングスコアを曖昧にすることを目的としている。既存の手法では、厳格な変形に対する頑健さを欠いた手作りまたはcnnベースの手法でこれに取り組むか、あるいは不適切なフィールドと不適応性のために不正確な一致を判別できないcnnの制限を継承する。本稿では, トランスフォーマーを用いたコストアグリゲーション(CAT)を導入し, 自己認識機構のグローバルな受容分野を十分に享受するアーキテクチャ設計の助けを借りて, 初期相関マップ間のグローバルコンセンサスを探究する。また、CATが直面する可能性のあるいくつかの制限を緩和するため、CATの拡張であるCATs++を提案する。提案手法は,PF-WILLOW,PF-PASCAL,SPair-71kを含むすべてのベンチマークに対して,従来の最先端手法よりも高い性能を示す。我々はさらに広範なアブレーション研究と分析を提供する。

関連論文リスト

Neutralizing Token Aggregation via Information Augmentation for Efficient Test-Time Adaptation [59.1067331268383]
TTA(Test-Time Adaptation)は、視覚変換器(ViT)を追加のトレーニングデータなしで分散シフトに適応するための有効なソリューションとして登場した。推論コストを削減するために、プラグイン・アンド・プレイのトークン・アグリゲーション手法はViTに冗長なトークンをマージし、全処理されたトークンを減らす。我々はこの問題をETTA(Efficient Test-Time Adaptation)として定式化し、推論遅延を低減しつつTTAの適応性を維持する。
論文参考訳（メタデータ） (2025-08-05T12:40:55Z)
NDCG-Consistent Softmax Approximation with Accelerated Convergence [67.10365329542365]
本稿では,ランキングの指標と直接一致した新たな損失定式化を提案する。提案したRG損失を高効率な Alternating Least Squares (ALS) 最適化手法と統合する。実世界のデータセットに対する実証的な評価は、我々のアプローチが同等または上位のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-06-11T06:59:17Z)
CAT: Circular-Convolutional Attention for Sub-Quadratic Transformers [0.3626013617212666]
本稿では,CAT(Circular-convolutional Attention)を導入し,表現力を犠牲にすることなく複雑性を低減する。 CATはO(NlogN)計算を実現し、完全に接続されたレイヤを合理化することで学習可能なパラメータを少なくする。 CATの設計はエンジニアリングの同型フレームワークに基づいており、実用的効率と実装の容易さを提供する。
論文参考訳（メタデータ） (2025-04-09T09:08:26Z)
OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。しばしば最適化の課題を提起するが、収束性は低い。推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文参考訳（メタデータ） (2024-12-13T18:55:19Z)
HAFLQ: Heterogeneous Adaptive Federated LoRA Fine-tuned LLM with Quantization [55.972018549438964]
LLM(Federated Fine-tuning of Pre-trained Large Language Models)は、さまざまなデータセットにまたがるタスク固有の適応を可能にすると同時に、プライバシの保護を可能にする。本研究では, HAFLQ (Heterogeneous Adaptive Federated Low-Rank Adaptation Fine-tuned LLM with Quantization) を提案する。テキスト分類タスクの実験結果から,HAFLQはメモリ使用量を31%削減し,通信コストを49%削減し,精度を50%向上し,ベースライン法よりも高速な収束を実現している。
論文参考訳（メタデータ） (2024-11-10T19:59:54Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
On the Power of Convolution Augmented Transformer [30.46405043231576]
本稿では,CAT(Convolution-Augmented Transformer)によるリコール,コピー,長さ一般化タスクの利点について検討する。 Catは、注目層のK/Q/V埋め込みに畳み込みフィルタを組み込む。コンボリューションの局所性は、注目のグローバルな見方と相乗効果を示す。
論文参考訳（メタデータ） (2024-07-08T04:08:35Z)
CAT: Contrastive Adapter Training for Personalized Image Generation [4.093428697109545]
コントラスト適応訓練(Contrastive Adapter Training, CAT)を提案し, CAT損失を応用してアダプタトレーニングを強化する。提案手法は,モデルがアダプタを開始する際に,ベースモデルの本来の知識の保存を容易にする。
論文参考訳（メタデータ） (2024-04-11T08:36:13Z)
Quantified Task Misalignment to Inform PEFT: An Exploration of Domain Generalization and Catastrophic Forgetting in CLIP [7.550566004119157]
CLIPモデルにおけるタスクの難易度とパラメータ効率の単純な微調整手法の性能の関係を解析する。注意重みのサブセットのみを訓練する手法は、A-CLIPと呼ばれ、領域一般化と破滅的忘れのバランスをとる。
論文参考訳（メタデータ） (2024-02-14T23:01:03Z)
ALF: Adaptive Label Finetuning for Scene Graph Generation [116.59868289196157]
画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。 ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
論文参考訳（メタデータ） (2023-12-29T01:37:27Z)
PIPE : Parallelized Inference Through Post-Training Quantization Ensembling of Residual Expansions [23.1120983784623]
PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
論文参考訳（メタデータ） (2023-11-27T13:29:34Z)
Small Object Detection via Coarse-to-fine Proposal Generation and Imitation Learning [52.06176253457522]
本稿では,粗粒度パイプラインと特徴模倣学習に基づく小型物体検出に適した2段階フレームワークを提案する。 CFINetは、大規模な小さなオブジェクト検出ベンチマークであるSODA-DとSODA-Aで最先端の性能を達成する。
論文参考訳（メタデータ） (2023-08-18T13:13:09Z)
An Accelerated Doubly Stochastic Gradient Method with Faster Explicit Model Identification [97.28167655721766]
本稿では、分散正規化損失最小化問題に対する2倍加速勾配降下法(ADSGD)を提案する。まず、ADSGDが線形収束率を達成でき、全体的な計算複雑性を低減できることを示す。
論文参考訳（メタデータ） (2022-08-11T22:27:22Z)
AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文参考訳（メタデータ） (2021-12-09T15:10:47Z)
Semantic Correspondence with Transformers [68.37049687360705]
本稿では,変換器を用いたコストアグリゲーション(CAT)を提案し,意味論的に類似した画像間の密接な対応を見出す。初期相関マップと多レベルアグリゲーションを曖昧にするための外観親和性モデリングを含む。提案手法の有効性を示す実験を行い,広範囲にわたるアブレーション研究を行った。
論文参考訳（メタデータ） (2021-06-04T14:39:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。