Fugu-MT 論文翻訳(概要): Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning

論文の概要: Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning

arxiv url: http://arxiv.org/abs/2303.12745v1
Date: Thu, 9 Mar 2023 08:12:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-25 02:50:05.613516
Title: Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning
Title（参考訳）: DOLOSデータセットとパラメータ効率のよいクロスモーダル学習
Authors: Xiaobao Guo, Nithish Muthuchamy Selvaraj, Zitong Yu, Adams Kong, Bingquan Shen, Alex Kot
Abstract要約: DOLOS(DOLOS)は,ゲームショーの偽装検出データセットとして最大であり,深い偽装会話が可能である。我々は、異なる要因の影響を調べるために、列車試験、時間、性別のプロトコルを提供する。また,マルチタスク学習を利用して,誤認識や視覚的特徴を同時に予測することで,性能向上を図る。
参考スコア（独自算出の注目度）: 14.139670453834798
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Deception detection in conversations is a challenging yet important task, having pivotal applications in many fields such as credibility assessment in business, multimedia anti-frauds, and custom security. Despite this, deception detection research is hindered by the lack of high-quality deception datasets, as well as the difficulties of learning multimodal features effectively. To address this issue, we introduce DOLOS, the largest gameshow deception detection dataset with rich deceptive conversations. DOLOS includes 1,675 video clips featuring 213 subjects, and it has been labeled with audio-visual feature annotations. We provide train-test, duration, and gender protocols to investigate the impact of different factors. We benchmark our dataset on previously proposed deception detection approaches. To further improve the performance by fine-tuning fewer parameters, we propose Parameter-Efficient Crossmodal Learning (PECL), where a Uniform Temporal Adapter (UT-Adapter) explores temporal attention in transformer-based architectures, and a crossmodal fusion module, Plug-in Audio-Visual Fusion (PAVF), combines crossmodal information from audio-visual features. Based on the rich fine-grained audio-visual annotations on DOLOS, we also exploit multi-task learning to enhance performance by concurrently predicting deception and audio-visual features. Experimental results demonstrate the desired quality of the DOLOS dataset and the effectiveness of the PECL. The DOLOS dataset and the source codes will be publicly available soon.
Abstract（参考訳）: ビジネスにおける信頼性評価、マルチメディアのアンチ詐欺、カスタムセキュリティなど、多くの分野において重要な応用がある。それにもかかわらず、デセプション検出研究は、高品質のデセプションデータセットの欠如と、マルチモーダルな特徴を効果的に学習することの難しさによって妨げられている。この問題に対処するため,ゲームショーの偽装検出データセットとして最大規模のDOLOSを導入した。 DOLOSには213人の被験者をフィーチャーした1,675本のビデオクリップが含まれており、音声-視覚的特徴アノテーションがラベル付けされている。我々は、異なる要因の影響を調べるために、列車試験、期間、性別プロトコルを提供する。提案した偽造検出手法のデータセットをベンチマークする。より少ないパラメータを微調整して性能をさらに向上させるため、一様時相アダプタ(ut-adapter)がトランスフォーマティブアーキテクチャの時間的注意を探索するパラメータ効率の高いクロスモーダル学習(pecl)と、音声・視覚特徴のクロスモーダル情報を結合したクロスモーダル融合モジュールであるプラグインオーディオ・ビジュアル融合(pavf)を提案する。 dolosの詳細なオーディオビジュアルアノテーションに基づいて,マルチタスク学習を活用し,騙しと視聴覚機能を同時に予測することで,パフォーマンスを向上させる。実験の結果,DOLOSデータセットの望ましい品質とPECLの有効性が示された。 DOLOSデータセットとソースコードは近く公開される。

関連論文リスト

Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。 SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文参考訳（メタデータ） (2025-07-07T10:08:57Z)
Lightweight Joint Audio-Visual Deepfake Detection via Single-Stream Multi-Modal Learning Framework [19.53717894228692]
DeepfakesはAI合成マルチメディアデータで、誤情報を拡散するために悪用される可能性がある。単一ストリームマルチモーダル学習フレームワークを用いた音声・視覚的ディープフェイク検出のための軽量ネットワークを提案する。提案手法は非常に軽量であり,パラメータは0.48Mに留まるが,ユニモーダルとマルチモーダルの両方のディープフェイクに優れる。
論文参考訳（メタデータ） (2025-06-09T02:13:04Z)
MAGNET: A Multi-agent Framework for Finding Audio-Visual Needles by Reasoning over Multi-Video Haystacks [67.31276358668424]
AV-HaystacksQAという新しいタスクを導入し、クエリに応答して、異なるビデオにまたがる有能なセグメントを識別し、それらをリンクして最も有意義な回答を生成する。 AVHaystacksは、マルチビデオ検索および時間的グラウンドタスクにおけるLMMの能力を評価するために設計された3100の注釈付きQAペアからなるオーディオビジュアルベンチマークである。提案するAVHaystackのQAタスクにおけるBLEU@4およびGPT評価スコアの基準値よりも89%と65%の相対的な改善を実現し、モデルに依存しないマルチエージェントフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T06:34:29Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文参考訳（メタデータ） (2025-04-06T13:59:16Z)
SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文参考訳（メタデータ） (2024-10-06T01:03:42Z)
Contextual Cross-Modal Attention for Audio-Visual Deepfake Detection and Localization [3.9440964696313485]
デジタル時代には、ディープフェイクや合成メディアの出現は、社会的・政治的整合性に対する重大な脅威となる。オーディオ視覚のようなマルチモーダル操作に基づくディープフェイクは、より現実的であり、より大きな脅威をもたらす。本稿では,音声・視覚的ディープフェイク検出にコンテキスト情報を活用する,リカレントニューラルネットワーク(RNN)に基づく新しいマルチモーダルアテンションフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-02T18:45:01Z)
Progressive Confident Masking Attention Network for Audio-Visual Segmentation [7.864898315909104]
オーディオ・ビジュアル (AVS) と呼ばれる難題が出現し、シーン内のオブジェクトを音声化するためのセグメンテーションマップを作成することを目的としている。 PMCANet(Progressive Confident Masking Attention Network)を紹介する。注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文参考訳（メタデータ） (2024-06-04T14:21:41Z)
AVTENet: Audio-Visual Transformer-based Ensemble Network Exploiting Multiple Experts for Video Deepfake Detection [53.448283629898214]
近年の超現実的なディープフェイクビデオの普及は、オーディオと視覚の偽造の脅威に注意を向けている。 AI生成のフェイクビデオの検出に関するこれまでのほとんどの研究は、視覚的モダリティまたはオーディオ的モダリティのみを使用していた。音響操作と視覚操作の両方を考慮したAVTENet(Audio-Visual Transformer-based Ensemble Network)フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-19T19:01:26Z)
Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文参考訳（メタデータ） (2023-09-20T17:59:32Z)
Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。 3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。 AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文参考訳（メタデータ） (2023-09-07T17:30:36Z)
Glitch in the Matrix: A Large Scale Benchmark for Content Driven Audio-Visual Forgery Detection and Localization [20.46053083071752]
新しいデータセットであるLocalized Visual DeepFake (LAV-DF) の提案とベンチマークを行う。 LAV-DFは、戦略的コンテンツ駆動型オーディオ、ビジュアルおよびオーディオ視覚操作で構成されている。提案するベースライン手法であるBundary Aware Temporal Forgery Detection (BA-TFD)は3次元畳み込みニューラルネットワークに基づくアーキテクチャである。
論文参考訳（メタデータ） (2023-05-03T08:48:45Z)
Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文参考訳（メタデータ） (2023-04-06T09:54:06Z)
DOAD: Decoupled One Stage Action Detection Network [77.14883592642782]
人々をローカライズし、ビデオからアクションを認識することは、ハイレベルなビデオ理解にとって難しい課題だ。既存の手法は主に2段階ベースで、1段階は人物境界ボックス生成、もう1段階は行動認識を行う。本稿では、時間的行動検出の効率を向上させるために、DOADと呼ばれる分離したワンステージネットワークを提案する。
論文参考訳（メタデータ） (2023-04-01T08:06:43Z)
Fully Automated End-to-End Fake Audio Detection [57.78459588263812]
本稿では,完全自動エンドツーエンド音声検出手法を提案する。まず、wav2vec事前学習モデルを用いて、音声の高レベル表現を得る。ネットワーク構造には, Light-DARTS という異種アーキテクチャサーチ (DARTS) の修正版を用いる。
論文参考訳（メタデータ） (2022-08-20T06:46:55Z)
A Multi-View Approach To Audio-Visual Speaker Verification [38.9710777250597]
本研究では,音声視覚による話者検証手法について検討する。 voxceleb1データセットの最低av等しいエラーレート(eer)は0.7%である。この新しいアプローチは、クロスモーダル検証の困難なテスト条件において、voxceleb1のeerを28%達成する。
論文参考訳（メタデータ） (2021-02-11T22:29:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。