論文の概要: Conceptualizing Multi-scale Wavelet Attention and Ray-based Encoding for Human-Object Interaction Detection
- arxiv url: http://arxiv.org/abs/2507.10977v1
- Date: Tue, 15 Jul 2025 04:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.98028
- Title: Conceptualizing Multi-scale Wavelet Attention and Ray-based Encoding for Human-Object Interaction Detection
- Title(参考訳): ヒューマンオブジェクトインタラクション検出のためのマルチスケールウェーブレットアテンションとレイベース符号化の概念化
- Authors: Quan Bi Pay, Vishnu Monn Baskaran, Junn Yong Loo, KokSheik Wong, Simon See,
- Abstract要約: 本稿では,HOI検出に適したウェーブレットアテンションのようなバックボーンとレイベースのエンコーダアーキテクチャを提案する。
我々のウェーブレットバックボーンは、畳み込みフィルタから抽出した低次および高次相互作用から識別的特徴を集約することにより、中間階相互作用を表現する限界に対処する。
我々のデコーダは、クエリの埋め込みを、正確な予測のために強調された関心領域と整合させる。
- 参考スコア(独自算出の注目度): 15.125734989910429
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-object interaction (HOI) detection is essential for accurately localizing and characterizing interactions between humans and objects, providing a comprehensive understanding of complex visual scenes across various domains. However, existing HOI detectors often struggle to deliver reliable predictions efficiently, relying on resource-intensive training methods and inefficient architectures. To address these challenges, we conceptualize a wavelet attention-like backbone and a novel ray-based encoder architecture tailored for HOI detection. Our wavelet backbone addresses the limitations of expressing middle-order interactions by aggregating discriminative features from the low- and high-order interactions extracted from diverse convolutional filters. Concurrently, the ray-based encoder facilitates multi-scale attention by optimizing the focus of the decoder on relevant regions of interest and mitigating computational overhead. As a result of harnessing the attenuated intensity of learnable ray origins, our decoder aligns query embeddings with emphasized regions of interest for accurate predictions. Experimental results on benchmark datasets, including ImageNet and HICO-DET, showcase the potential of our proposed architecture. The code is publicly available at [https://github.com/henry-pay/RayEncoder].
- Abstract(参考訳): 人間と物体の相互作用を正確にローカライズし、特徴付けするためには、人間と物体の相互作用(HOI)検出が不可欠であり、様々な領域にわたる複雑な視覚シーンの包括的理解を提供する。
しかし、既存のHOI検出器は、リソース集約的なトレーニング手法や非効率的なアーキテクチャに依存するため、信頼性の高い予測を効率的に行うのに苦労することが多い。
これらの課題に対処するために、ウェーブレットアテンションのようなバックボーンと、HOI検出に適した新しいレイベースのエンコーダアーキテクチャを概念化する。
我々のウェーブレットバックボーンは、様々な畳み込みフィルタから抽出した低次および高次相互作用から識別的特徴を集約することにより、中間階相互作用を表現する限界に対処する。
同時に、レイベースのエンコーダは、デコーダの関心領域へのフォーカスを最適化し、計算オーバーヘッドを軽減することにより、マルチスケールの注意を喚起する。
学習可能な線源の減衰強度を活用することにより、デコーダはクエリ埋め込みと強調された関心領域を整合させて正確な予測を行う。
ImageNetやHICO-DETといったベンチマークデータセットの実験結果から,提案アーキテクチャの可能性が示された。
コードは[https://github.com/henry-pay/RayEncoder]で公開されている。
関連論文リスト
- Rethinking the Nested U-Net Approach: Enhancing Biomarker Segmentation with Attention Mechanisms and Multiscale Feature Fusion [2.0799865428691393]
マルチスケール・フィーチャー・フュージョンとアテンション・メカニズムを通じて、ローカルとグローバルの両方のコンテキストをキャプチャするネストされたUNetアーキテクチャを導入する。
この設計では、エンコーダからの機能統合を改善し、キーチャネルとリージョンを強調し、空間の詳細を復元してセグメンテーション性能を向上させる。
論文 参考訳(メタデータ) (2025-04-08T15:53:46Z) - CognitionCapturer: Decoding Visual Stimuli From Human EEG Signal With Multimodal Information [61.1904164368732]
脳波信号の表現にマルチモーダルデータを完全に活用する統合フレームワークであるCognitionCapturerを提案する。
具体的には、CognitionCapturerは、各モダリティに対してモダリティエキスパートを訓練し、EEGモダリティからモダリティ情報を抽出する。
このフレームワークは生成モデルの微調整を一切必要とせず、より多くのモダリティを組み込むように拡張することができる。
論文 参考訳(メタデータ) (2024-12-13T16:27:54Z) - Leveraging Mixture of Experts for Improved Speech Deepfake Detection [53.69740463004446]
スピーチのディープフェイクは、個人のセキュリティとコンテンツの信頼性に重大な脅威をもたらす。
本研究では,Mixture of Expertsアーキテクチャを用いた音声深度検出性能の向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T13:24:03Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Fus-MAE: A cross-attention-based data fusion approach for Masked Autoencoders in remote sensing [5.070981175240306]
Fus-MAEは、マスク付きオートエンコーダに基づく自己教師型学習フレームワークである。
実験により,Fus-MAEは,SAR-光データ融合に適したコントラスト学習戦略と効果的に競合できることが示された。
論文 参考訳(メタデータ) (2024-01-05T11:36:21Z) - Correlation Pyramid Network for 3D Single Object Tracking [16.694809791177263]
本稿では,統合エンコーダとモーションファクターデコーダを備えた新しい相関ピラミッドネットワーク(CorpNet)を提案する。
CorpNetは、リアルタイムに実行しながら最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-05-16T06:07:20Z) - DeepSTEP -- Deep Learning-Based Spatio-Temporal End-To-End Perception
for Autonomous Vehicles [0.0]
我々はDeepSTEPというエンド・ツー・エンドの知覚アーキテクチャの概念を提示する。
DeepSTEPは、カメラ、LiDAR、RaDARからの生のセンサーデータを処理し、抽出したデータを深層融合ネットワークに結合する。
アーキテクチャのエンド・ツー・エンドの設計、タイムアウェア・アテンション・メカニズム、および複数の知覚タスクの統合により、現実世界のデプロイメントにおいて有望なソリューションとなる。
論文 参考訳(メタデータ) (2023-05-11T14:13:37Z) - Multimodal Graph Learning for Deepfake Detection [10.077496841634135]
既存のディープフェイク検出器は、堅牢性と一般化を達成する上でいくつかの課題に直面している。
本稿では,マルチモーダルグラフ学習(MGL)という新しいフレームワークを提案する。
提案手法は,ディープフェイク検出のための特徴を効果的に識別し,活用することを目的としている。
論文 参考訳(メタデータ) (2022-09-12T17:17:49Z) - Deep Equilibrium Assisted Block Sparse Coding of Inter-dependent
Signals: Application to Hyperspectral Imaging [71.57324258813675]
相互依存信号のデータセットは、列が強い依存を示す行列として定義される。
ニューラルネットワークは、事前に構造として機能し、基礎となる信号相互依存性を明らかにするために使用される。
ディープ・アンローリングとディープ・平衡に基づくアルゴリズムが開発され、高度に解釈可能で簡潔なディープ・ラーニング・ベース・アーキテクチャを形成する。
論文 参考訳(メタデータ) (2022-03-29T21:00:39Z) - Infrared Small-Dim Target Detection with Transformer under Complex
Backgrounds [155.388487263872]
変換器を用いた赤外線小径目標検出手法を提案する。
画像特徴の相互作用情報をより広い範囲で学習するために,変換器の自己認識機構を採用する。
最小限のターゲットの機能を学習するための機能拡張モジュールも設計しています。
論文 参考訳(メタデータ) (2021-09-29T12:23:41Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - Depthwise Non-local Module for Fast Salient Object Detection Using a
Single Thread [136.2224792151324]
本稿では,高速な物体検出のための新しいディープラーニングアルゴリズムを提案する。
提案アルゴリズムは,1つのCPUスレッドと同時に,競合精度と高い推論効率を実現する。
論文 参考訳(メタデータ) (2020-01-22T15:23:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。