論文の概要: HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue
- arxiv url: http://arxiv.org/abs/2312.09736v1
- Date: Fri, 15 Dec 2023 12:20:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:06:53.297828
- Title: HEAR: Hearing Enhanced Audio Response for Video-grounded Dialogue
- Title(参考訳): HEAR:ビデオ対話のための音声応答の強化
- Authors: Sunjae Yoon, Dahyun Kim, Eunseop Yoon, Hee Suk Yoon, Junyeong Kim,
Chnag D. Yoo
- Abstract要約: HEAR(Healthing Enhanced Audio Response)フレームワークを提案する。
HEARはVGDデータセット(AVSD@DSTC7とAVSD@DSTC8)で検証され、様々なVGDシステムでの有効性を示す。
- 参考スコア(独自算出の注目度): 13.990972678543216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-grounded Dialogue (VGD) aims to answer questions regarding a given
multi-modal input comprising video, audio, and dialogue history. Although there
have been numerous efforts in developing VGD systems to improve the quality of
their responses, existing systems are competent only to incorporate the
information in the video and text and tend to struggle in extracting the
necessary information from the audio when generating appropriate responses to
the question. The VGD system seems to be deaf, and thus, we coin this symptom
of current systems' ignoring audio data as a deaf response. To overcome the
deaf response problem, Hearing Enhanced Audio Response (HEAR) framework is
proposed to perform sensible listening by selectively attending to audio
whenever the question requires it. The HEAR framework enhances the accuracy and
audibility of VGD systems in a model-agnostic manner. HEAR is validated on VGD
datasets (i.e., AVSD@DSTC7 and AVSD@DSTC8) and shows effectiveness with various
VGD systems.
- Abstract(参考訳): ビデオグラウンドド・ダイアログ(VGD)は、ビデオ、音声、対話履歴を含む所定のマルチモーダル入力に関する質問に答えることを目的としている。
応答の質を向上させるためのVGDシステムの開発には多くの取り組みがあったが、既存のシステムはビデオやテキストに情報を取り込むことしかできず、質問に対する適切な応答を生成する際には音声から必要な情報を取り出すのに苦労する傾向にある。
VGDシステムは聴覚障害のように見えるため、現在のシステムでは聴覚障害として音声データを無視しているという症状を生じさせる。
難聴者応答問題を克服するために,質問時に音声を選択的に受聴することにより,聴力強化音声応答(hear)フレームワークを提案する。
hearフレームワークはモデルに依存しない方法でvgdシステムの精度と可聴性を高める。
HEARはVGDデータセット(AVSD@DSTC7とAVSD@DSTC8)で検証され、様々なVGDシステムでの有効性を示す。
関連論文リスト
- SaSR-Net: Source-Aware Semantic Representation Network for Enhancing Audio-Visual Question Answering [53.00674706030977]
本稿では,AVQA(Audio-Visual Question Answering)のための新モデルSaSR-Netについて紹介する。
SaSR-Netは、ソースを学習可能なトークンを使用して、音声視覚要素と対応する質問を効率的にキャプチャし、アライメントする。
Music-AVQAとAVQA-Yangデータセットの実験は、SaSR-Netが最先端のAVQAメソッドより優れていることを示している。
論文 参考訳(メタデータ) (2024-11-07T18:12:49Z) - Can Large Audio-Language Models Truly Hear? Tackling Hallucinations with Multi-Task Assessment and Stepwise Audio Reasoning [55.2480439325792]
大規模な音声言語モデル (LALM) は、音声および音声情報の理解と推論に優れた能力を示している。
これらのモデルは、既存の音のイベントを幻覚させ、音のイベントの順序を誤認し、誤って音源を帰属させるなど、依然として課題に直面している。
論文 参考訳(メタデータ) (2024-10-21T15:55:27Z) - video-SALMONN: Speech-Enhanced Audio-Visual Large Language Models [27.54879344983513]
Video-SALMONNは、視覚的なフレームシーケンス、オーディオイベント、音楽だけでなく、音声も理解できる。
Video-SALMONNは、他のav-LLMでは前例のないタスクに対して、驚くべきビデオ理解と推論能力を示す。
論文 参考訳(メタデータ) (2024-06-22T01:36:11Z) - Answering Diverse Questions via Text Attached with Key Audio-Visual
Clues [24.347420432207283]
本稿では,相互相関蒸留(MCD)を行うための枠組みを提案する。
提案手法は,複数の問合せ対を含む2つの公開データセットに対して評価する。
論文 参考訳(メタデータ) (2024-03-11T12:51:37Z) - AKVSR: Audio Knowledge Empowered Visual Speech Recognition by
Compressing Audio Knowledge of a Pretrained Model [53.492751392755636]
本稿では、音声モダリティを用いて、視覚的モダリティの不十分な音声情報を補うために、AKVSR(AKVSR)を提案する。
提案手法の有効性を広範囲な実験により検証し,広範に使用されているLSS3データセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-08-15T06:38:38Z) - Late Audio-Visual Fusion for In-The-Wild Speaker Diarization [33.0046568984949]
本稿では,後期融合による音声のみと視覚中心のサブシステムを組み合わせた音声視覚ダイアリゼーションモデルを提案する。
オーディオでは,提案手法を用いてシミュレーションされたプロキシデータセットのレシピをトレーニングした場合,アトラクタベースのエンドツーエンドシステム(EEND-EDA)が極めてよく動作することを示す。
また、学習中にデコードに注意を払い、話者認識損失を減らし、より多くの話者を処理するEEND-EDA++の改良版も提案する。
論文 参考訳(メタデータ) (2022-11-02T17:20:42Z) - Rethinking Audio-visual Synchronization for Active Speaker Detection [62.95962896690992]
アクティブ話者検出(ASD)に関する既存の研究は、アクティブ話者の定義に一致しない。
本稿では,アテンションモジュールに位置符号化を適用し,教師付きASDモデルに適用し,同期キューを活用することを提案する。
実験結果から,既存モデルの制限に対処して,非同期音声を発話しないものとして検出できることが示唆された。
論文 参考訳(メタデータ) (2022-06-21T14:19:06Z) - Audio-visual multi-channel speech separation, dereverberation and
recognition [70.34433820322323]
本稿では,音声-視覚的多チャンネル音声分離,デバーベレーション,認識手法を提案する。
音声を用いた場合の視覚的モダリティの利点は、2つのニューラルデバーベレーションアプローチでのみ示される。
LRS2データセットを用いて行った実験から,提案手法がベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2022-04-05T04:16:03Z) - SIG-VC: A Speaker Information Guided Zero-shot Voice Conversion System
for Both Human Beings and Machines [15.087294549955304]
本研究の目的は,音声の話者内容のアンタングル化のための中間表現を得ることである。
本システムでは,音声のクローン性能を維持するために,話者情報制御を付加する。
その結果,提案方式はゼロショット音声変換におけるトレードオフ問題を著しく低減することがわかった。
論文 参考訳(メタデータ) (2021-11-06T06:22:45Z) - NoiseQA: Challenge Set Evaluation for User-Centric Question Answering [68.67783808426292]
応答エンジンに先立つパイプライン内のコンポーネントが,多種多様なエラーの原因を発生させることができることを示す。
我々は、QAシステムが効果的にデプロイされる前に、進歩の余地がかなりあると結論付けている。
論文 参考訳(メタデータ) (2021-02-16T18:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。