論文の概要: LISA: Language-guided Interference-aware Spatial-Frequency Attention for Driver Gaze Estimation
- arxiv url: http://arxiv.org/abs/2605.17287v1
- Date: Sun, 17 May 2026 06:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.831043
- Title: LISA: Language-guided Interference-aware Spatial-Frequency Attention for Driver Gaze Estimation
- Title(参考訳): LISA:ドライバの視線推定のための言語誘導型干渉認識空間周波数アテンション
- Authors: Jun Ma, Zhenye Yang, Ruichen Zhou, Pei Zhang, Huan Li, Jinpeng Chen,
- Abstract要約: ドライバーの視線推定は、現代の監視システムにおけるドライバーの注意度を評価するための基本的な指標となる。
textbfLanguage-guided textbfInterference-aware textbfSpatial-Frequency textbfAttention frameworkを提案する。
- 参考スコア(独自算出の注目度): 12.034295331199813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Driver gaze estimation serves as a fundamental metric for evaluating driver attentiveness in modern monitoring systems. Beyond being vulnerable to sudden lighting changes and sensor noise, spatial-domain models struggle to disentangle authentic gaze cues from irrelevant visual attributes. In this paper, we propose LISA, a \textbf{L}anguage-guided \textbf{I}nterference-aware \textbf{S}patial-Frequency \textbf{A}ttention framework that combines frequency-domain priors with vision-language knowledge. Observing that the amplitude spectrum remains relatively stable even under spatial perturbations, we design a dual-domain fusion mechanism. It integrates stable low-frequency semantics into high-frequency details, employing spatial attention to precisely target ocular regions. To reduce semantic ambiguity, we also introduce a training-time disentanglement strategy. Using a frozen CLIP encoder and orthogonal regularization, we explicitly separate gaze features from appearance interference. Experiments on two benchmarks show that LISA achieves state-of-the-art performance, with significantly improved robustness against occlusions and lighting variations. The code repository is available at https://github.com/Mason-bupt/LISA.
- Abstract(参考訳): ドライバーの視線推定は、現代の監視システムにおけるドライバーの注意度を評価するための基本的な指標となる。
突然の照明変化やセンサーノイズに弱いだけでなく、空間領域モデルは、真の視線を無関係な視覚特性から切り離すのに苦労する。
本稿では,周波数領域の先行情報と視覚言語知識を結合したLISA, LISA, a \textbf{L}anguage-guided \textbf{I}nterference-aware \textbf{S}patial-Frequency \textbf{A}ttention frameworkを提案する。
振幅スペクトルは空間摂動の下でも比較的安定であり、二重領域融合機構を設計する。
安定な低周波セマンティクスを高周波の細部に統合し、正確にターゲットの眼領域に空間的注意をあてる。
また,意味のあいまいさを軽減するため,訓練時のアンタングル化戦略を導入する。
凍結したCLIPエンコーダと直交正規化を用いて、視線特徴を外観干渉と明確に分離する。
2つのベンチマーク実験により、LISAは最先端のパフォーマンスを実現し、閉塞に対する堅牢性と照明のバリエーションを大幅に改善した。
コードリポジトリはhttps://github.com/Mason-bupt/LISAで公開されている。
関連論文リスト
- Zoom In, Reason Out: Efficient Far-field Anomaly Detection in Expressway Surveillance Videos via Focused VLM Reasoning Guided by Bayesian Inference [25.036113180047845]
高速道路ビデオ異常検出は安全管理に不可欠である。
本稿では,様々な高速道路環境における一般化の低さを克服するオンラインベイズ推論モジュールを提案する。
本研究では,様々な高速道路条件をまたいだ一般化を図りながら,リアルタイムの効率化と説明性を実現していることを示す。
論文 参考訳(メタデータ) (2026-04-26T14:09:55Z) - ZoomSpec: A Physics-Guided Coarse-to-Fine Framework for Wideband Spectrum Sensing [7.560433707709695]
ZoomSpecは物理誘導型粗粒度フレームワークで、信号処理の事前処理とディープラーニングを統合している。
SpaceNetのリアルタイムデータセットの評価では、最先端の78.1 mAP@0.5:0.95が示されている。
論文 参考訳(メタデータ) (2026-04-15T07:29:25Z) - GazeCLIP: Gaze-Guided CLIP with Adaptive-Enhanced Fine-Grained Language Prompt for Deepfake Attribution and Detection [80.12497948980378]
現在のディープフェイク属性やディープフェイク検出作業は、新しい生成方法への一般化が不十分である傾向にある。
適応型きめ細粒度言語プロンプトを用いた新しい視線誘導型CLIPを提案する。
拡散モデルや流れモデルのような新しい発電機上でのネットワークのDFAD性能を評価するために, 新規できめ細かなベンチマークを行う。
CLIPをベースとした視線認識モデルを導入し,顔偽造攻撃の一般化を図った。
論文 参考訳(メタデータ) (2026-03-31T05:59:59Z) - Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - Variational Dual-path Attention Network for CSI-Based Gesture Recognition [0.0]
チャネル状態情報(CSI)に基づくWi-Fiジェスチャ認識は,エッジデバイス上での高次元ノイズやリソース制約に悩まされている。
本稿では,VDAN(Varial Dual-path Attention Network)という軽量機能前処理モジュールを提案する。
周波数領域フィルタリングと時間検出による構造的特徴改善を行う。
論文 参考訳(メタデータ) (2026-01-20T09:02:02Z) - Dual Semantic-Aware Network for Noise Suppressed Ultrasound Video Segmentation [21.117226880898418]
超音波ビデオセグメンテーションにおける雑音の頑健性を高めるための新しいフレームワークを提案する。
Dual Semantic-Aware Network (DSANet)は、局所的特徴とグローバル的特徴の相互意味認識を促進する。
我々のモデルは画素レベルの特徴依存を回避し、ビデオベース手法よりもはるかに高い推論FPSを実現し、画像ベースモデルを超えている。
論文 参考訳(メタデータ) (2025-07-10T05:41:17Z) - Rethinking Transformer-Based Blind-Spot Network for Self-Supervised Image Denoising [94.09442506816724]
BSN(Blind-spot Network)は、自己教師付き画像復調(SSID)におけるニューラルネットワークアーキテクチャとして広く使われている。
本研究では,Transformer ベースの Blind-Spot Network (TBSN) を構築した。
論文 参考訳(メタデータ) (2024-04-11T15:39:10Z) - Spectral Enhanced Rectangle Transformer for Hyperspectral Image
Denoising [64.11157141177208]
ハイパースペクトル画像の空間的およびスペクトル的相関をモデル化するスペクトル拡張矩形変換器を提案する。
前者に対しては、長方形自己アテンションを水平および垂直に利用し、空間領域における非局所的類似性を捉える。
後者のために,空間スペクトル立方体の大域的低ランク特性を抽出し,雑音を抑制するスペクトル拡張モジュールを設計する。
論文 参考訳(メタデータ) (2023-04-03T09:42:13Z) - Inter-class Discrepancy Alignment for Face Recognition [55.578063356210144]
IA(Inter-class DiscrepancyAlignment)という統合フレームワークを提案する。
IDA-DAOは、画像と隣人の相違を考慮した類似度スコアの整合に使用される。
IDA-SSEは、GANで生成された仮想候補画像を導入することで、説得力のあるクラス間隣人を提供できます。
論文 参考訳(メタデータ) (2021-03-02T08:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。