論文の概要: End-to-End Multimodal Representation Learning for Video Dialog
- arxiv url: http://arxiv.org/abs/2210.14512v1
- Date: Wed, 26 Oct 2022 06:50:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:00:14.427587
- Title: End-to-End Multimodal Representation Learning for Video Dialog
- Title(参考訳): ビデオ対話のためのエンドツーエンドマルチモーダル表現学習
- Authors: Huda Alamri, Anthony Bilic, Michael Hu, Apoorva Beedu, Irfan Essa
- Abstract要約: 本研究では,3D-CNNネットワークとトランスフォーマーベースネットワークを1つのビジュアルエンコーダに組み合わせた新しいフレームワークを提案する。
ビジュアルエンコーダは、テキストやオーディオなどの他の入力モダリティと共同で訓練される。
AVSDタスクの実験は、生成タスクと検索タスクの両方において、ベースラインよりも大幅に改善されている。
- 参考スコア(独自算出の注目度): 5.661732643450332
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video-based dialog task is a challenging multimodal learning task that has
received increasing attention over the past few years with state-of-the-art
obtaining new performance records. This progress is largely powered by the
adaptation of the more powerful transformer-based language encoders. Despite
this progress, existing approaches do not effectively utilize visual features
to help solve tasks. Recent studies show that state-of-the-art models are
biased toward textual information rather than visual cues. In order to better
leverage the available visual information, this study proposes a new framework
that combines 3D-CNN network and transformer-based networks into a single
visual encoder to extract more robust semantic representations from videos. The
visual encoder is jointly trained end-to-end with other input modalities such
as text and audio. Experiments on the AVSD task show significant improvement
over baselines in both generative and retrieval tasks.
- Abstract(参考訳): ビデオベースのダイアログタスクは,ここ数年で新たなパフォーマンス記録を獲得して注目を集めている,マルチモーダル学習タスクである。
この進歩は、より強力なトランスフォーマーベースの言語エンコーダの適応に大きく影響している。
この進歩にもかかわらず、既存のアプローチはタスクの解決に視覚的特徴を効果的に利用していない。
近年の研究では、最先端のモデルは視覚的手がかりよりもテキスト情報に偏っていることが示されている。
そこで本研究では,3d-cnnネットワークとトランスフォーマーネットワークを組み合わせることで,映像からよりロバストな意味表現を抽出する新しいフレームワークを提案する。
ビジュアルエンコーダは、テキストやオーディオなどの他の入力モダリティと共同で訓練される。
AVSDタスクの実験は、生成タスクと検索タスクの両方において、ベースラインよりも大幅に改善されている。
関連論文リスト
- CLIP-VAD: Exploiting Vision-Language Models for Voice Activity Detection [2.110168344647122]
音声活動検出(Voice Activity Detection, VAD)は、人が話しているかどうかを自動的に判断し、発話のタイミングを識別するプロセスである。
コントラスト言語-画像事前学習(CLIP)モデルを利用した新しい手法を提案する。
提案手法は,その単純さに拘わらず,広範囲なオーディオ視覚データセットの事前学習を必要とせず,複数のオーディオ視覚法より優れる。
論文 参考訳(メタデータ) (2024-10-18T14:43:34Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Reading-strategy Inspired Visual Representation Learning for
Text-to-Video Retrieval [41.420760047617506]
クロスモーダル表現学習は、ビデオと文の両方を、意味的類似性のための共通空間に計画する。
人間の読み方から着想を得た映像表現学習(RIVRL)を提案する。
我々のモデル RIVRL は TGIF と VATEX の新たな最先端を実現する。
論文 参考訳(メタデータ) (2022-01-23T03:38:37Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Dynamic Graph Representation Learning for Video Dialog via Multi-Modal
Shuffled Transformers [89.00926092864368]
音声・視覚シーン認識ダイアログタスクのためのセマンティクス制御型マルチモーダルシャッフルトランスフォーマー推論フレームワークを提案する。
また,フレーム内推論層を用いた動的シーングラフ表現学習パイプラインを提案する。
その結果,全ての評価指標について最先端の性能を示すことができた。
論文 参考訳(メタデータ) (2020-07-08T02:00:22Z) - Self-Supervised MultiModal Versatile Networks [76.19886740072808]
我々は、ビデオに自然に存在する3つのモダリティ(ビジュアル、オーディオ、言語ストリーム)を活用することで、自己スーパービジョンを用いて表現を学習する。
ビデオ, ビデオテキスト, 画像, 音声タスクに対して, ビデオデータの大規模な収集を訓練したネットワークを, どのように適用できるかを実証する。
論文 参考訳(メタデータ) (2020-06-29T17:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。