論文の概要: DyKen-Hyena: Dynamic Kernel Generation via Cross-Modal Attention for Multimodal Intent Recognition
- arxiv url: http://arxiv.org/abs/2509.09940v1
- Date: Fri, 12 Sep 2025 03:12:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.964654
- Title: DyKen-Hyena: Dynamic Kernel Generation via Cross-Modal Attention for Multimodal Intent Recognition
- Title(参考訳): DyKen-Hyena:マルチモーダルインテント認識のためのクロスモーダルアテンションによる動的カーネル生成
- Authors: Yifei Wang, Wenbin Wang, Yong Luo,
- Abstract要約: 我々はDyKen-Hyenaを導入し、特徴融合から処理変調へ問題を再構成する。
本モデルでは,音声-視覚的手がかりを動的・トーケン毎の畳み込みカーネルに変換し,テキスト特徴抽出を直接変調する。
このきめ細かいアプローチは、MIntRecとMIntRec2.0ベンチマークの最先端結果を達成する。
- 参考スコア(独自算出の注目度): 27.310006106980968
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Though Multimodal Intent Recognition (MIR) proves effective by utilizing rich information from multiple sources (e.g., language, video, and audio), the potential for intent-irrelevant and conflicting information across modalities may hinder performance from being further improved. Most current models attempt to fuse modalities by applying mechanisms like multi-head attention to unimodal feature sequences and then adding the result back to the original representation. This process risks corrupting the primary linguistic features with noisy or irrelevant non-verbal signals, as it often fails to capture the fine-grained, token-level influence where non-verbal cues should modulate, not just augment, textual meaning. To address this, we introduce DyKen-Hyena, which reframes the problem from feature fusion to processing modulation. Our model translates audio-visual cues into dynamic, per-token convolutional kernels that directly modulate textual feature extraction. This fine-grained approach achieves state-of-the-art results on the MIntRec and MIntRec2.0 benchmarks. Notably, it yields a +10.46% F1-score improvement in out-of-scope detection, validating that our method creates a fundamentally more robust intent representation.
- Abstract(参考訳): マルチモーダル・インテント認識(MIR)は,複数の情報源(例えば,言語,ビデオ,音声)からの豊富な情報を活用することで有効であることが証明されているが,モダリティにまたがる意図的・矛盾的な情報の可能性により,パフォーマンスがさらに向上することを妨げる可能性がある。
現在のほとんどのモデルは、マルチヘッドアテンションのようなメカニズムを単一特徴列に適用し、その結果を元の表現に戻すことで、モダリティを融合させようとしている。
このプロセスは、ノイズや無関係な非言語的な信号で主要な言語的特徴を損なう危険を冒す。
そこで我々はDyKen-Hyenaを導入し,機能融合から処理変調への再構成を行った。
本モデルでは,音声-視覚的手がかりを動的・トーケン毎の畳み込みカーネルに変換し,テキスト特徴抽出を直接変調する。
このきめ細かいアプローチは、MIntRecとMIntRec2.0ベンチマークの最先端結果を達成する。
特に、10.46%のF1スコアがスコープ外検出で改善され、我々の手法が基本的により堅牢な意図表現を作り出すことが証明された。
関連論文リスト
- AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T15:53:21Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - MDF: A Dynamic Fusion Model for Multi-modal Fake News Detection [0.41942958779358674]
フェイクニュース検出のためのMDFと呼ばれる新しい動的融合フレームワークを提案する。
本モデルは,(1)モーダル内不確実性をモデル化するためのマルチヘッドアテンション機構を用いた不確実性モデリングモジュールとしてのUEM,(2)DFNは2つのモーダルの重みを動的に融合させるD-Sエビデンス理論に基づく動的融合モジュールである。
論文 参考訳(メタデータ) (2024-06-28T09:24:52Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z) - Improving the Robustness of Summarization Systems with Dual Augmentation [68.53139002203118]
頑健な要約システムは、入力中の特定の単語の選択やノイズに関わらず、文書のギストをキャプチャできるべきである。
まず,単語レベルの同義語置換や雑音を含む摂動に対する要約モデルの頑健性について検討する。
SummAttackerを提案する。これは言語モデルに基づく対数サンプルを生成するための効率的な手法である。
論文 参考訳(メタデータ) (2023-06-01T19:04:17Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - A Context-Aware Feature Fusion Framework for Punctuation Restoration [28.38472792385083]
注意力不足を軽減するために,2種類の注意力(FFA)に基づく新しい特徴融合フレームワークを提案する。
一般的なベンチマークデータセットであるIWSLTの実験は、我々のアプローチが効果的であることを示す。
論文 参考訳(メタデータ) (2022-03-23T15:29:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。