論文の概要: TwistNet-2D: Learning Second-Order Channel Interactions via Spiral Twisting for Texture Recognition
- arxiv url: http://arxiv.org/abs/2602.07262v1
- Date: Fri, 06 Feb 2026 23:25:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.53499
- Title: TwistNet-2D: Learning Second-Order Channel Interactions via Spiral Twisting for Texture Recognition
- Title(参考訳): TwistNet-2D: テクスチャ認識のためのスパイラルツイストによる2次チャネルインタラクション学習
- Authors: Junbo Jacob Lian, Feng Xiong, Yujun Sun, Kaichen Ouyang, Mingyang Yu, Shengwei Fu, Zhong Rui, Zhang Yujun, Huiling Chen,
- Abstract要約: 指向性空間変位下での局所的な対流路積を計算する軽量モジュールTwistNet-2Dを導入する。
中心となるコンポーネントであるSpral-Twisted Channel Interaction (STCI)は、要素ワイドチャネル乗算の前に所定の方向に1つの特徴マップをシフトする。
- 参考スコア(独自算出の注目度): 8.244472025282356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Second-order feature statistics are central to texture recognition, yet current methods face a fundamental tension: bilinear pooling and Gram matrices capture global channel correlations but collapse spatial structure, while self-attention models spatial context through weighted aggregation rather than explicit pairwise feature interactions. We introduce TwistNet-2D, a lightweight module that computes \emph{local} pairwise channel products under directional spatial displacement, jointly encoding where features co-occur and how they interact. The core component, Spiral-Twisted Channel Interaction (STCI), shifts one feature map along a prescribed direction before element-wise channel multiplication, thereby capturing the cross-position co-occurrence patterns characteristic of structured and periodic textures. Aggregating four directional heads with learned channel reweighting and injecting the result through a sigmoid-gated residual path, \TwistNet incurs only 3.5% additional parameters and 2% additional FLOPs over ResNet-18, yet consistently surpasses both parameter-matched and substantially larger baselines -- including ConvNeXt, Swin Transformer, and hybrid CNN--Transformer architectures -- across four texture and fine-grained recognition benchmarks.
- Abstract(参考訳): 2次の特徴統計はテクスチャ認識の中心であるが、現在の手法は基本的な緊張に直面している: 双線形プールとグラム行列はグローバルチャネル相関を捉えるが、空間構造は崩壊する。
TwistNet-2Dは,方向空間変位下でのemph{local}ペアワイドチャネル積の計算を行う軽量モジュールである。
中心となるコンポーネントであるSpiral-Twisted Channel Interaction (STCI) は、要素ワイドチャネル乗算の前に所定の方向に沿って1つの特徴写像をシフトし、構造的および周期的テクスチャの特徴を持つクロスポジション共起パターンをキャプチャする。
4つの方向のヘッドを学習チャネルの重み付けで集約し、その結果をシグモイドでゲートされた残留パスを通じて注入すると、 \TwistNetはResNet-18上で3.5%の追加パラメータと2%の追加FLOPしか発生しないが、パラメータマッチングと実質的に大きなベースライン -- ConvNeXt、Swin Transformer、ハイブリッドCNN-Transformerアーキテクチャなど -- を4つのテクスチャと微粒な認識ベンチマークで一貫して上回っている。
関連論文リスト
- DisentangleFormer: Spatial-Channel Decoupling for Multi-Channel Vision [10.378378296066305]
視覚変換器は基本的な限界に直面し、標準的な自己認識は空間次元とチャネル次元を共同で処理する。
本研究では,空間チャネルの分離を原理として,堅牢な多チャンネル視覚表現を実現するアーキテクチャであるDisentangleFormerを提案する。
パラレル・ディスタングルメント(Parallel Disentanglement): 空間的およびスペクトル的次元にわたる非相関的な特徴学習を可能にする、空間的およびスペクトル的なストリームを独立に処理する、(2) Squeezed Token Enhancer: 空間的およびチャネル的ストリームを動的に融合する適応キャリブレーションモジュール、(3) マルチスケールFFN: グローバルな注目とマルチスケールローカルコンテキストを補完する、3つのコアコンポーネントを統合した。
論文 参考訳(メタデータ) (2025-12-03T23:03:56Z) - Region-Point Joint Representation for Effective Trajectory Similarity Learning [25.664203648334563]
textbfRePoは、textbfRegion-wiseと textbfPoint-wiseの機能をエンコードして、空間コンテキストと微細な移動パターンの両方をキャプチャする新しい方法である。
実験結果から、RePoはSOTAベースラインよりも22.2%の精度向上を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-17T08:28:18Z) - TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - TransUPR: A Transformer-based Uncertain Point Refiner for LiDAR Point
Cloud Semantic Segmentation [6.587305905804226]
本稿ではトランスUPR(Transformer-based certain point refiner)を提案する。
我々のTransUPRは最先端のパフォーマンス、すなわちSemantic KITTIベンチマーク上の68.2%のIntersection over Union(mIoU)を達成する。
論文 参考訳(メタデータ) (2023-02-16T21:38:36Z) - Bridging the Gap Between Vision Transformers and Convolutional Neural
Networks on Small Datasets [91.25055890980084]
小さなデータセットでスクラッチからトレーニングする場合、ビジョントランスフォーマー(ViT)と畳み込みニューラルネットワーク(CNN)の間には、依然として極端なパフォーマンスギャップがある。
本稿では2つの帰納バイアスを緩和する解として動的ハイブリッドビジョン変換器(DHVT)を提案する。
我々のDHVTは、CIFAR-100が85.68%、22.8Mパラメータが82.3%、ImageNet-1Kが24.0Mパラメータが82.3%の軽量モデルで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-12T06:54:39Z) - DaViT: Dual Attention Vision Transformers [94.62855697081079]
デュアルアテンションビジョン変換器(DaViT)について紹介する。
DaViTは、計算効率を維持しながらグローバルなコンテキストをキャプチャできるビジョントランスフォーマーアーキテクチャである。
我々は,DaViTが4つのタスクにおける最先端の性能を効率よく計算できることを示す。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - PlueckerNet: Learn to Register 3D Line Reconstructions [57.20244406275875]
本稿では,ユークリッド空間における2つの部分重畳された3次元線再構成の問題をニューラルネットワークで解く手法を提案する。
室内および屋外の両方のデータセットを用いた実験により,本手法の登録精度(回転と翻訳)は,ベースラインを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2020-12-02T11:31:56Z) - Volumetric Transformer Networks [88.85542905676712]
学習可能なモジュールである容積変換器ネットワーク(VTN)を導入する。
VTNは、中間CNNの空間的およびチャネル的特徴を再設定するために、チャネル回りの歪み場を予測する。
実験の結果,VTNは特徴量の表現力を一貫して向上し,細粒度画像認識とインスタンスレベルの画像検索におけるネットワークの精度が向上することがわかった。
論文 参考訳(メタデータ) (2020-07-18T14:00:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。