論文の概要: Multimodal Alignment with Cross-Attentive GRUs for Fine-Grained Video Understanding
- arxiv url: http://arxiv.org/abs/2507.03531v1
- Date: Fri, 04 Jul 2025 12:35:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.767726
- Title: Multimodal Alignment with Cross-Attentive GRUs for Fine-Grained Video Understanding
- Title(参考訳): クロスアテンティブGRUを用いた微細ビデオ理解のためのマルチモーダルアライメント
- Authors: Namho Kim, Junhwa Kim,
- Abstract要約: 本稿では,GRUベースのシーケンスエンコーダとモーダル間アテンション機構を用いて,映像,画像,テキストを融合するフレームワークを提案する。
以上の結果から, 核融合戦略は単調なベースラインを著しく上回っていることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-grained video classification requires understanding complex spatio-temporal and semantic cues that often exceed the capacity of a single modality. In this paper, we propose a multimodal framework that fuses video, image, and text representations using GRU-based sequence encoders and cross-modal attention mechanisms. The model is trained using a combination of classification or regression loss, depending on the task, and is further regularized through feature-level augmentation and autoencoding techniques. To evaluate the generality of our framework, we conduct experiments on two challenging benchmarks: the DVD dataset for real-world violence detection and the Aff-Wild2 dataset for valence-arousal estimation. Our results demonstrate that the proposed fusion strategy significantly outperforms unimodal baselines, with cross-attention and feature augmentation contributing notably to robustness and performance.
- Abstract(参考訳): きめ細かいビデオ分類には、単一のモダリティの容量を超える複雑な時空間的・意味的な手がかりを理解する必要がある。
本稿では,GRUベースのシーケンスエンコーダとモーダル間アテンション機構を用いて,映像,画像,テキスト表現を融合するマルチモーダルフレームワークを提案する。
このモデルは、タスクに応じて分類と回帰損失の組み合わせを用いて訓練され、特徴レベルの拡張と自動エンコーディング技術によってさらに規則化される。
本フレームワークの汎用性を評価するため,実世界の暴力検出のためのDVDデータセットと,原子価-覚醒推定のためのAff-Wild2データセットの2つの挑戦的なベンチマーク実験を行った。
以上の結果から,提案した融合戦略は単調なベースラインを著しく上回り,クロスアテンションと特徴増強がロバスト性や性能に寄与していることが示唆された。
関連論文リスト
- Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
本稿では,マルチモーダルなCo-AttenDWGアーキテクチャを提案する。
我々はMIMICとSemEval Memotion 1.0に対するアプローチを検証した。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - ViaRL: Adaptive Temporal Grounding via Visual Iterated Amplification Reinforcement Learning [68.76048244253582]
ビデオ理解におけるフレーム選択の最適化にルールベース強化学習(RL)を利用する最初のフレームワークであるViaRLを紹介する。
ViaRLは、下流モデルの応答精度を報奨信号として利用し、試行錯誤によってフレームセレクタを訓練する。
ViaRLは、多様なビデオ理解タスクに対して、時間的基盤性能と堅牢な一般化を一貫して提供します。
論文 参考訳(メタデータ) (2025-05-21T12:29:40Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Learning Prompt-Enhanced Context Features for Weakly-Supervised Video
Anomaly Detection [37.99031842449251]
弱い監督下での映像異常検出は重大な課題を呈する。
本稿では,効率的なコンテキストモデリングとセマンティック識別性の向上に焦点をあてた,弱教師付き異常検出フレームワークを提案する。
提案手法は,特定の異常なサブクラスの検出精度を大幅に向上させ,その実用的価値と有効性を裏付けるものである。
論文 参考訳(メタデータ) (2023-06-26T06:45:16Z) - MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for
Video Summarization [61.69587867308656]
本稿では,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。
学習したショット認識表現に基づいて、MHSCNetは、ビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測することができる。
論文 参考訳(メタデータ) (2022-04-18T14:53:33Z) - Unsupervised Video Summarization with a Convolutional Attentive
Adversarial Network [32.90753137435032]
我々は,教師なしの方法で深層要約器を構築するために,畳み込み型敵ネットワーク(CAAN)を提案する。
具体的には、ビデオのグローバルな表現を抽出する完全畳み込みシーケンスネットワークと、正規化された重要度スコアを出力する注目ベースのネットワークを用いる。
その結果,提案手法の他の非教師なし手法に対する優位性を示した。
論文 参考訳(メタデータ) (2021-05-24T07:24:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。