論文の概要: Region-Aware Deformable Convolutions
- arxiv url: http://arxiv.org/abs/2509.15436v1
- Date: Thu, 18 Sep 2025 21:18:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:10.90712
- Title: Region-Aware Deformable Convolutions
- Title(参考訳): 地域対応の変形可能な畳み込み
- Authors: Abolfazl Saheban Maleki, Maryam Imani,
- Abstract要約: Region-Aware Deformable Convolution (RAD-Conv)は、ニューラルネットワークが複雑な画像構造に適応する能力を高める新しい畳み込み演算子である。
RAD-Convはカーネル要素ごとに4つの境界オフセットを使用して、画像の内容に合わせて動的にサイズと形状を調整する柔軟で長方形の領域を作成する。
- 参考スコア(独自算出の注目度): 7.09016563801433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Region-Aware Deformable Convolution (RAD-Conv), a new convolutional operator that enhances neural networks' ability to adapt to complex image structures. Unlike traditional deformable convolutions, which are limited to fixed quadrilateral sampling areas, RAD-Conv uses four boundary offsets per kernel element to create flexible, rectangular regions that dynamically adjust their size and shape to match image content. This approach allows precise control over the receptive field's width and height, enabling the capture of both local details and long-range dependencies, even with small 1x1 kernels. By decoupling the receptive field's shape from the kernel's structure, RAD-Conv combines the adaptability of attention mechanisms with the efficiency of standard convolutions. This innovative design offers a practical solution for building more expressive and efficient vision models, bridging the gap between rigid convolutional architectures and computationally costly attention-based methods.
- Abstract(参考訳): 我々は、複雑な画像構造に適応するニューラルネットワークの能力を高める新しい畳み込み演算子であるRerea-Aware Deformable Convolution (RAD-Conv)を紹介する。
固定された四辺形サンプリング領域に限定される従来の変形可能な畳み込みとは異なり、RAD-Convはカーネル要素ごとに4つの境界オフセットを使用して、画像の内容に合わせてそのサイズと形状を動的に調整する柔軟で長方形の領域を作成する。
このアプローチにより、受信フィールドの幅と高さを正確に制御することができ、小さな1x1カーネルであっても、局所的な詳細と長距離依存の両方をキャプチャできる。
受容場の形状をカーネルの構造から切り離すことで、RAD-Convは注意機構の適応性と標準畳み込みの効率を結合する。
この革新的な設計は、より表現力が高く効率的な視覚モデルを構築するための実用的なソリューションを提供し、厳密な畳み込みアーキテクチャと計算的にコストがかかる注意に基づく方法のギャップを埋める。
関連論文リスト
- Boosting Multi-View Indoor 3D Object Detection via Adaptive 3D Volume Construction [10.569056109735735]
本研究では,適応型3次元ボリューム構造に基づく室内3次元物体検出フレームワークであるSGCDetを提案する。
各画像の適応領域に幾何学的・文脈的情報を統合するための幾何学的・文脈的アグリゲーションモジュールを導入する。
SGCDetは、ScanNet、ScanNet200、ARKitScenesデータセット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-07-24T11:58:01Z) - Adaptive Rectangular Convolution for Remote Sensing Pansharpening [10.045872885149562]
我々は、革新的な畳み込みモジュール、Adaptive Rectangular Convolution (ARConv)を導入する。
ARConvは、畳み込みカーネルの高さと幅の両方を適応的に学習し、学習スケールに基づいてサンプリングポイント数を動的に調整する。
このアプローチにより、ARConvはイメージ内のさまざまなオブジェクトのスケール固有の特徴を効果的にキャプチャし、カーネルサイズとサンプリングロケーションを最適化できる。
論文 参考訳(メタデータ) (2025-03-01T12:40:42Z) - Unifying Dimensions: A Linear Adaptive Approach to Lightweight Image Super-Resolution [6.857919231112562]
ウィンドウベーストランスは超高解像度タスクにおいて優れた性能を示した。
畳み込みニューラルネットワークよりも計算複雑性と推論レイテンシが高い。
線形適応ミキサーネットワーク(LAMNet)という,畳み込みに基づくトランスフォーマーフレームワークを構築する。
論文 参考訳(メタデータ) (2024-09-26T07:24:09Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network for Structured Light Projection Profilometry [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できる。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Efficient Real-world Image Super-Resolution Via Adaptive Directional Gradient Convolution [80.85121353651554]
畳み込みカーネル内でのカーネル単位の微分演算を導入し、学習可能な方向勾配畳み込みを開発する。
これらの畳み込みは、新しい線形重み付け機構と平行に統合され、適応方向勾配畳み込み(DGConv)を形成する。
さらに,適応情報相互作用ブロック(AIIBlock)を設計し,テクスチャとコントラストの強化のバランスをとるとともに,相互依存性を慎重に検討し,単純な積み重ねによるリアルSRのためのDGPNetを作成する。
論文 参考訳(メタデータ) (2024-05-11T14:21:40Z) - CNS-Edit: 3D Shape Editing via Coupled Neural Shape Optimization [56.47175002368553]
本稿では、3次元形状編集を潜在空間で暗黙的に行うために,結合表現とニューラルボリューム最適化に基づく新しい手法を提案する。
まず,3次元形状編集を支援する結合型ニューラル形状表現を設計する。
第二に、結合したニューラルネットワークの形状最適化手順を定式化し、編集操作対象の2つの結合した成分を協調最適化する。
論文 参考訳(メタデータ) (2024-02-04T01:52:56Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Omni-Dimensional Dynamic Convolution [25.78940854339179]
各畳み込み層で単一の静的畳み込みカーネルを学習することは、現代の畳み込みニューラルネットワーク(CNN)の共通の訓練パラダイムである。
動的畳み込みの最近の研究は、入力依存の注意を重み付けした$n$の畳み込みカーネルの線形結合を学習することで、軽量CNNの精度を大幅に向上させることができることを示している。
より一般化されているがエレガントな動的畳み込み設計であるOmni-dimensional Dynamic Convolution (ODConv)を提案する。
論文 参考訳(メタデータ) (2022-09-16T14:05:38Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - XSepConv: Extremely Separated Convolution [60.90871656244126]
極めて分離された畳み込みブロック(XSepConv)を提案する。
空間的に分離可能な畳み込みを奥行きの畳み込みに融合させ、大きなカーネルの計算コストとパラメータサイズの両方を削減する。
XSepConvは、大規模なカーネルサイズを持つバニラ奥行きの畳み込みの効率的な代替として設計されている。
論文 参考訳(メタデータ) (2020-02-27T11:46:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。