論文の概要: Audio Visual Scene-Aware Dialog Generation with Transformer-based Video
Representations
- arxiv url: http://arxiv.org/abs/2202.09979v1
- Date: Mon, 21 Feb 2022 04:09:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-22 15:56:06.768189
- Title: Audio Visual Scene-Aware Dialog Generation with Transformer-based Video
Representations
- Title(参考訳): トランスフォーマーによる映像表現による音声映像シーン認識対話生成
- Authors: Yoshihiro Yamazaki, Shota Orihashi, Ryo Masumura, Mihiro Uchida,
Akihiko Takashima
- Abstract要約: 我々は、CNNベースの機能よりも時間的、空間的の両方のグローバルな表現を効率的にキャプチャできるTransformerベースのビデオ機能を適用した。
本モデルでは,DSTC10の回答に類似した主観的スコアが得られた。
- 参考スコア(独自算出の注目度): 20.619819743960868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been many attempts to build multimodal dialog systems that can
respond to a question about given audio-visual information, and the
representative task for such systems is the Audio Visual Scene-Aware Dialog
(AVSD). Most conventional AVSD models adopt the Convolutional Neural Network
(CNN)-based video feature extractor to understand visual information. While a
CNN tends to obtain both temporally and spatially local information, global
information is also crucial for boosting video understanding because AVSD
requires long-term temporal visual dependency and whole visual information. In
this study, we apply the Transformer-based video feature that can capture both
temporally and spatially global representations more efficiently than the
CNN-based feature. Our AVSD model with its Transformer-based feature attains
higher objective performance scores for answer generation. In addition, our
model achieves a subjective score close to that of human answers in DSTC10. We
observed that the Transformer-based visual feature is beneficial for the AVSD
task because our model tends to correctly answer the questions that need a
temporally and spatially broad range of visual information.
- Abstract(参考訳): 音声・視覚情報に関する質問に応答できるマルチモーダルダイアログシステムの構築には多くの試みがあり、その代表的タスクはAudio Visual Scene-Aware Dialog (AVSD)である。
従来のavsdモデルは、畳み込みニューラルネットワーク(cnn)ベースの映像特徴抽出器を用いて視覚情報を理解する。
cnnは時間的および空間的に局所的な情報を取得する傾向があるが、avsdは長期の時間的視覚依存と全視覚情報を必要とするため、グローバル情報もビデオ理解を促進するために重要である。
本研究では,CNNよりも時間的,空間的両グローバルな表現を効率的にキャプチャできるTransformerベースの映像特徴を適用した。
トランスフォーマーを用いたavsdモデルは,回答生成のための客観的性能スコアが向上する。
さらに,本モデルでは,DSTC10における人間の回答に近い主観的スコアが得られた。
本モデルは時間的および空間的に幅広い視覚情報を必要とする質問に正しく答える傾向があるため,avsdタスクにはトランスフォーマーベースの視覚機能は有益であることがわかった。
関連論文リスト
- Relevance-guided Audio Visual Fusion for Video Saliency Prediction [23.873134951154704]
本稿では,SP と呼ばれる新しい関連性誘導型音声視覚情報量予測ネットワークを提案する。
Fusionモジュールは、音声と視覚要素間の意味的関連性に基づいて、音声機能の保持を動的に調整する。
マルチスケール機能Synergy(MS)モジュールは、異なるエンコーディングステージからの視覚的特徴を統合し、様々なスケールでオブジェクトを表現するネットワークの能力を向上する。
論文 参考訳(メタデータ) (2024-11-18T10:42:27Z) - Robust Audiovisual Speech Recognition Models with Mixture-of-Experts [67.75334989582709]
EVAを導入し、オーディオVisual ASRのミックス・オブ・エクササイズを利用して、Wildのビデオに対してロバストな音声認識を行う。
まず、視覚情報を視覚トークンシーケンスにエンコードし、それらを軽量な投影により音声空間にマッピングする。
実験により,本モデルが3つのベンチマークで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2024-09-19T00:08:28Z) - Audio-Visual Glance Network for Efficient Video Recognition [17.95844876568496]
本稿では,映像の時間的に重要な部分を効率的に処理するためのオーディオ・ビジュアル・ネットワーク(AVGN)を提案する。
我々は,各フレームのサリエンシスコアを推定するAV-TeST (Audio-Visual Temporal Saliency Transformer) を用いた。
AVGNの堅牢性と有効性を高めるため,様々なトレーニング手法とマルチモーダル特徴融合を取り入れた。
論文 参考訳(メタデータ) (2023-08-18T05:46:20Z) - AVSegFormer: Audio-Visual Segmentation with Transformer [42.24135756439358]
ビデオ中の音声オブジェクトの特定とセグメント化を目的とした,AVS(Audio-visual segmentation)タスクが導入された。
このタスクは、初めてオーディオ駆動のピクセルレベルのシーン理解を必要とし、重大な課題を提起する。
本稿では,トランスフォーマーアーキテクチャを活用するAVSegFormerを提案する。
論文 参考訳(メタデータ) (2023-07-03T16:37:10Z) - Referred by Multi-Modality: A Unified Temporal Transformer for Video
Object Segmentation [54.58405154065508]
ビデオオブジェクトセグメンテーションの参照のためのマルチモーダル統一時間変換器を提案する。
MUTRは、初めて統合されたフレームワークにより、DETRスタイルのトランスフォーマーを採用し、テキストまたはオーディオ参照によって指定されたビデオオブジェクトをセグメント化することができる。
変換器以降の高レベルの時間的相互作用に対して,異なるオブジェクト埋め込みのためのフレーム間特徴通信を行い,ビデオに沿って追跡するためのオブジェクトワイズ対応の改善に寄与する。
論文 参考訳(メタデータ) (2023-05-25T17:59:47Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。