論文の概要: Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual
Transformers with Joint Student-Teacher Learning
- arxiv url: http://arxiv.org/abs/2110.06894v1
- Date: Wed, 13 Oct 2021 17:24:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 15:01:41.027256
- Title: Audio-Visual Scene-Aware Dialog and Reasoning using Audio-Visual
Transformers with Joint Student-Teacher Learning
- Title(参考訳): 学生-教師共同学習による音声映像変換器による映像シーン認識対話と推論
- Authors: Ankit P. Shah, Shijie Geng, Peng Gao, Anoop Cherian, Takaaki Hori, Tim
K. Marks, Jonathan Le Roux, Chiori Hori
- Abstract要約: これまでの研究では、AVSD(Audio-Visual Scene-Aware Dialog)タスクを提案し、AVSDデータセットを収集し、AVSD技術を開発し、AVSDチャレンジトラックをホストした。
本稿では、DSTC10のための時間的推論とAVSDデータセットの新たな拡張を含む新しいタスクを紹介する。
- 参考スコア(独自算出の注目度): 70.56330507503867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In previous work, we have proposed the Audio-Visual Scene-Aware Dialog (AVSD)
task, collected an AVSD dataset, developed AVSD technologies, and hosted an
AVSD challenge track at both the 7th and 8th Dialog System Technology
Challenges (DSTC7, DSTC8). In these challenges, the best-performing systems
relied heavily on human-generated descriptions of the video content, which were
available in the datasets but would be unavailable in real-world applications.
To promote further advancements for real-world applications, we proposed a
third AVSD challenge, at DSTC10, with two modifications: 1) the human-created
description is unavailable at inference time, and 2) systems must demonstrate
temporal reasoning by finding evidence from the video to support each answer.
This paper introduces the new task that includes temporal reasoning and our new
extension of the AVSD dataset for DSTC10, for which we collected
human-generated temporal reasoning data. We also introduce a baseline system
built using an AV-transformer, which we released along with the new dataset.
Finally, this paper introduces a new system that extends our baseline system
with attentional multimodal fusion, joint student-teacher learning (JSTL), and
model combination techniques, achieving state-of-the-art performances on the
AVSD datasets for DSTC7, DSTC8, and DSTC10. We also propose two temporal
reasoning methods for AVSD: one attention-based, and one based on a time-domain
region proposal network.
- Abstract(参考訳): これまでの研究では,AVSD(Audio-Visual Scene-Aware Dialog)タスクを提案し,AVSDデータセットを収集し,AVSD技術を開発し,第7回および第8回Dialog System Technology Challenges (DSTC7,DSTC8) でAVSDチャレンジトラックを開催した。
これらの課題において、最高のパフォーマンスシステムは、データセットで利用できたが現実世界のアプリケーションでは利用できないビデオコンテンツの人為的な記述に大きく依存していた。
実世界のアプリケーションにさらなる進歩をもたらすため、DSTC10で第3のAVSDチャレンジを提案しました。
1) 推論時に人為的記述が利用できないこと,及び
2) システムは,各回答を支持するビデオから証拠を見つけることにより,時間的推論を示さなければならない。
本稿では、時間的推論と、人為的な時間的推論データを収集するDSTC10のためのAVSDデータセットの新たな拡張を含む新しいタスクを紹介する。
また、AV変換器を用いて構築したベースラインシステムを導入し、新しいデータセットとともにリリースした。
最後に,dstc7,dstc8,dstc10のavsdデータセット上での最先端性能を実現するために,注目のマルチモーダル融合,学生・教師合同学習(jstl),モデル組み合わせ技術を用いてベースラインシステムを拡張した新しいシステムを提案する。
また,avsdに対する時間的推論手法として,アテンションベースと時間領域提案ネットワークに基づく方法を提案する。
関連論文リスト
- AutoAD III: The Prequel -- Back to the Pixels [96.27059234129788]
本稿では,映像データを用いたADデータセット構築のための2つのアプローチと,これを用いたトレーニングと評価データセットの構築を提案する。
我々は,凍結した事前学習されたビジュアルエンコーダと大規模言語モデルを用いて,生動画を取り込み,ADを生成するQ-formerベースのアーキテクチャを開発した。
人間のパフォーマンスによく適合したAD品質をベンチマークするために、新しい評価指標を提供する。
論文 参考訳(メタデータ) (2024-04-22T17:59:57Z) - AVicuna: Audio-Visual LLM with Interleaver and Context-Boundary Alignment for Temporal Referential Dialogue [35.603271710124424]
PU-VALORは114,000本以上の未編集ビデオと正確な時間的区切りを含む広帯域音声・視覚データセットである。
また,AVTI(Audio-Visual Tokens Interleaver)を特徴とするAVicunaについて述べる。
論文 参考訳(メタデータ) (2024-03-24T19:50:49Z) - The CHiME-7 DASR Challenge: Distant Meeting Transcription with Multiple
Devices in Diverse Scenarios [61.74042680711718]
第7回CHiMEチャレンジにおいて,CHiME-7 遠隔 ASR (DASR) タスクを紹介した。
このタスクは、複数の、おそらくは異種な記録装置を備えた遠距離フィールド設定での共同ASRとダイアリゼーションを含む。
目的は、参加者が異なる配列のジオメトリをまたいで一般化できる単一のシステムを考案することである。
論文 参考訳(メタデータ) (2023-06-23T18:49:20Z) - A Comprehensive Survey on Video Saliency Detection with Auditory
Information: the Audio-visual Consistency Perceptual is the Key! [25.436683033432086]
ビデオサリエンシ検出(VSD)は、あるビデオクリップの中で最も魅力的なオブジェクト/モノ/パターンを素早く見つけ出すことを目的としている。
本稿では,音声・視覚融合と唾液度検出のギャップを埋めるために,広範囲なレビューを行う。
論文 参考訳(メタデータ) (2022-06-20T07:25:13Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - MDMMT-2: Multidomain Multimodal Transformer for Video Retrieval, One
More Step Towards Generalization [65.09758931804478]
3つの異なるデータソースが組み合わさっている: 弱教師付きビデオ、クラウドラベル付きテキストイメージペア、テキストビデオペア。
利用可能な事前学習ネットワークの慎重な分析は、最高の事前学習ネットワークを選択するのに役立つ。
論文 参考訳(メタデータ) (2022-03-14T13:15:09Z) - A study on joint modeling and data augmentation of multi-modalities for
audio-visual scene classification [64.59834310846516]
音声視覚シーン分類(AVSC)のためのシステム性能を改善するために,共同モデリングとデータ拡張という2つの手法を提案する。
最終システムはDCASE 2021 Task 1bに送信された全AVSCシステムの中で94.2%の精度を達成できる。
論文 参考訳(メタデータ) (2022-03-07T07:29:55Z) - Audio Visual Scene-Aware Dialog Generation with Transformer-based Video
Representations [20.619819743960868]
我々は、CNNベースの機能よりも時間的、空間的の両方のグローバルな表現を効率的にキャプチャできるTransformerベースのビデオ機能を適用した。
本モデルでは,DSTC10の回答に類似した主観的スコアが得られた。
論文 参考訳(メタデータ) (2022-02-21T04:09:32Z) - Multimodal Dialogue State Tracking By QA Approach with Data Augmentation [16.436557991074068]
本稿では,オープンドメイン質問応答(QA)の観点から,AVSD(Audio-Video Scene-Aware Dialogue)タスクを解釈する。
提案するQAシステムは,マルチモーダル融合とアテンションを備えた共通エンコーダデコーダフレームワークを用いる。
実験の結果,DSTC7-AVSDデータセットのベースラインモデルに対して,我々のモデルと手法が大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2020-07-20T06:23:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。