論文の概要: Camera Model Identification Using Audio and Visual Content from Videos
- arxiv url: http://arxiv.org/abs/2406.17916v1
- Date: Tue, 25 Jun 2024 19:56:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 15:17:27.277224
- Title: Camera Model Identification Using Audio and Visual Content from Videos
- Title(参考訳): 映像からの音声・映像コンテンツを用いたカメラモデル同定
- Authors: Ioannis Tsingalis, Christos Korgialas, Constantine Kotropoulos,
- Abstract要約: 本稿では,音声,視覚的コンテンツ,あるいはそれらの融合を用いてデバイスを識別できるフレームワークを提案する。
提案フレームワークは,音声や視覚的コンテンツを独立して使用する場合に,有望な分類性能を示す。
将来の研究は、融合プロセスを改善し、両モードの分類性能を継続的に改善する可能性がある。
- 参考スコア(独自算出の注目度): 2.2667044928324747
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The identification of device brands and models plays a pivotal role in the realm of multimedia forensic applications. This paper presents a framework capable of identifying devices using audio, visual content, or a fusion of them. The fusion of visual and audio content occurs later by applying two fundamental fusion rules: the product and the sum. The device identification problem is tackled as a classification one by leveraging Convolutional Neural Networks. Experimental evaluation illustrates that the proposed framework exhibits promising classification performance when independently using audio or visual content. Furthermore, although the fusion results don't consistently surpass both individual modalities, they demonstrate promising potential for enhancing classification performance. Future research could refine the fusion process to improve classification performance in both modalities consistently. Finally, a statistical significance test is performed for a more in-depth study of the classification results.
- Abstract(参考訳): デバイスブランドとモデルの識別は、マルチメディア法医学的応用の領域において重要な役割を果たす。
本稿では,音声,視覚的コンテンツ,あるいはそれらの融合を用いてデバイスを識別できるフレームワークを提案する。
視覚的内容と音声的内容の融合は、後に製品と和の2つの基本的な融合規則を適用することによって起こる。
デバイス識別問題は、畳み込みニューラルネットワークを利用した分類問題として取り組まれる。
実験により,提案フレームワークは,音声や視覚的コンテンツを独立して使用する場合に,有望な分類性能を示すことを示す。
さらに, 融合の結果は両者を常に上回るものではないが, 分類性能の向上に有望な可能性を示唆している。
将来の研究は、融合プロセスを改善し、両モードの分類性能を継続的に改善する可能性がある。
最後に, 分類結果の詳細な研究のために, 統計的意義試験を行う。
関連論文リスト
- Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - Visual and audio scene classification for detecting discrepancies in video: a baseline method and experimental protocol [6.749750044497733]
まず、両モードを用いた既存の分類基準と比較するため、音声視覚シーン分類器を設計、最適化する。
この分類器を音声と視覚的モダリティに別々に適用することにより、シーンクラスの不整合を検出することができる。
提案手法は,シーン分類における最先端の成果と,音声と視覚の相違検出における有望な結果を実現する。
論文 参考訳(メタデータ) (2024-05-01T08:30:58Z) - Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - AV-SUPERB: A Multi-Task Evaluation Benchmark for Audio-Visual Representation Models [92.92233932921741]
AV-SUPERBベンチマークは,音声・視覚・バイモーダル融合表現の汎用的評価を可能にする。
我々は,最近の5つの自己教師型モデルを評価し,これらのモデルがすべてのタスクに一般化されないことを示す。
我々は,AudioSetを用いた中間タスクの微調整と音声イベント分類によって表現が改善されることを実証した。
論文 参考訳(メタデータ) (2023-09-19T17:35:16Z) - Hierarchical Audio-Visual Information Fusion with Multi-label Joint
Decoding for MER 2023 [51.95161901441527]
本稿では,離散的感情と次元的感情の両方を認識するための新しい枠組みを提案する。
基礎モデルから抽出した深い特徴は、生ビデオの頑健な音響的および視覚的表現として使用される。
我々の最終システムは最先端のパフォーマンスを達成し、MER-MULTIサブチャレンジのリーダーボードで3位にランクインする。
論文 参考訳(メタデータ) (2023-09-11T03:19:10Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis [16.930624128228658]
音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-08-30T02:08:06Z) - Multistage linguistic conditioning of convolutional layers for speech
emotion recognition [7.482371204083917]
分類的・次元音声感情認識(SER)におけるテキストと音声の深層融合の有効性について検討する。
深層ニューラルネットワーク(DNN)の複数の層に2つの情報ストリームを統合する新しい多段階融合法を提案する。
広く使われているIEMOCAPとMSP-Podcastデータベースの実験により、この2つの融合法は浅い(後期)核融合ベースラインよりも明らかに優れていることが示された。
論文 参考訳(メタデータ) (2021-10-13T11:28:04Z) - Attention Bottlenecks for Multimodal Fusion [90.75885715478054]
機械知覚モデルは典型的にはモダリティに特化しており、単調なベンチマークのために最適化されている。
複数の層でのモジュラリティ融合に「融合」を用いる新しいトランスフォーマーアーキテクチャを導入する。
我々は、徹底的なアブレーション研究を行い、複数のオーディオ視覚分類ベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-06-30T22:44:12Z) - Audiovisual Highlight Detection in Videos [78.26206014711552]
本研究は,タスク上の単一特徴の有効性研究と,一つの特徴を一度に残すアブレーション研究の2つの実験の結果である。
映像要約作業では,視覚的特徴がほとんどの情報を持ち,視覚的特徴を含む視覚的特徴が視覚のみの情報よりも向上することが示唆された。
その結果,映像要約タスクからハイライト検出タスクに特化して訓練されたモデルに知識を伝達できることが示唆された。
論文 参考訳(メタデータ) (2021-02-11T02:24:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。