論文の概要: Multimodal Matching Transformer for Live Commenting
- arxiv url: http://arxiv.org/abs/2002.02649v1
- Date: Fri, 7 Feb 2020 07:19:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-03 04:45:22.231838
- Title: Multimodal Matching Transformer for Live Commenting
- Title(参考訳): ライブコメント用マルチモーダルマッチングトランス
- Authors: Chaoqun Duan and Lei Cui and Shuming Ma and Furu Wei and Conghui Zhu
and Tiejun Zhao
- Abstract要約: 自動的なライブコメントは、視聴者にリアルタイムでビデオに対するコメントを提供することを目的としている。
このタスクの最近の研究は、コメントを生成するエンコーダ-デコーダモデルを採用している。
本稿では,コメント,視覚,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
- 参考スコア(独自算出の注目度): 97.06576354830736
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic live commenting aims to provide real-time comments on videos for
viewers. It encourages users engagement on online video sites, and is also a
good benchmark for video-to-text generation. Recent work on this task adopts
encoder-decoder models to generate comments. However, these methods do not
model the interaction between videos and comments explicitly, so they tend to
generate popular comments that are often irrelevant to the videos. In this
work, we aim to improve the relevance between live comments and videos by
modeling the cross-modal interactions among different modalities. To this end,
we propose a multimodal matching transformer to capture the relationships among
comments, vision, and audio. The proposed model is based on the transformer
framework and can iteratively learn the attention-aware representations for
each modality. We evaluate the model on a publicly available live commenting
dataset. Experiments show that the multimodal matching transformer model
outperforms the state-of-the-art methods.
- Abstract(参考訳): 自動ライブコメントは視聴者にリアルタイムのコメントを提供することを目的としている。
オンラインビデオサイトでのユーザエンゲージメントを奨励し、ビデオからテキスト生成のための良いベンチマークでもある。
このタスクの最近の研究は、コメントを生成するエンコーダデコーダモデルを採用している。
しかし、これらの手法はビデオとコメントの相互作用を明示的にモデル化しないため、しばしばビデオに関係のない人気コメントを生成する傾向がある。
本研究では,異なるモーダル間相互作用をモデル化することにより,ライブコメントとビデオの関連性を改善することを目的とする。
そこで本稿では,コメント,ビジョン,音声間の関係を捉えるマルチモーダルマッチング変換器を提案する。
提案モデルはtransformerフレームワークに基づいており,各モダリティに対する注意認識表現を反復的に学習することができる。
我々は、公開のライブコメントデータセットでモデルを評価する。
実験により、マルチモーダルマッチングトランスフォーマーモデルが最先端手法よりも優れていることが示された。
関連論文リスト
- Multi-Pair Temporal Sentence Grounding via Multi-Thread Knowledge Transfer Network [57.72095897427665]
時間文グラウンドディング(TSG)は、ビデオ中のクエリ関連セグメントを見つけることを目的としている。
従来のメソッドは、異なるペアを一緒にトレーニングできないシングルスレッドフレームワークに従っていた。
我々はこれらのペアを協調訓練することを目的としたMulti-Pair TSGを提案する。
論文 参考訳(メタデータ) (2024-12-20T08:50:11Z) - A Multimodal Transformer for Live Streaming Highlight Prediction [26.787089919015983]
ライブストリーミングは、将来のフレームなしで推論し、複雑なマルチモーダルインタラクションを処理するモデルを必要とする。
モーダル信号の時間的シフトを扱うための新しいモーダル時間アライメントモジュールを提案する。
本稿では,大規模データセットから学習し,ユーザの暗黙的なフィードバックを弱い監視信号として活用するための,境界対応Pairwise Lossを提案する。
論文 参考訳(メタデータ) (2024-06-15T04:59:19Z) - Sentiment-oriented Transformer-based Variational Autoencoder Network for Live Video Commenting [30.96049241998733]
感性指向型トランスフォーマーベース変分自動符号化(So-TVAE)ネットワークを提案し,複数の感情と複数の意味を持つ多様なビデオコメントを生成する。
具体的には、感情指向の多様性エンコーダは、VAEとランダムマスク機構をエレガントに組み合わせて、感情指導の下で意味的な多様性を実現する。
本稿では,データ不均衡に起因する感情サンプルの欠落の問題を軽減するため,バッチアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2024-04-19T10:43:25Z) - LiveChat: Video Comment Generation from Audio-Visual Multimodal Contexts [8.070778830276275]
我々は,ライブコメント技術の開発を容易にするために,大規模音声・視覚多モーダル対話データセットを作成する。
データはTwitchから収集され、11のカテゴリと575のストリーマーで合計438時間のビデオと3200万のコメントがある。
本稿では,映像中の時間的・空間的事象に対応するライブコメントを生成できる新しいマルチモーダル生成モデルを提案する。
論文 参考訳(メタデータ) (2023-10-01T02:35:58Z) - With a Little Help from my Temporal Context: Multimodal Egocentric
Action Recognition [95.99542238790038]
認識性能を向上させるため,周辺行動への参加を学習する手法を提案する。
時間的文脈を組み込むために,ビデオや音声を入力モダリティとして取り込み,変換器をベースとしたマルチモーダルモデルを提案する。
我々は,EPIC-KITCHENSとEGTEAデータセットを用いて,最先端の性能を報告する。
論文 参考訳(メタデータ) (2021-11-01T15:27:35Z) - Leveraging Local Temporal Information for Multimodal Scene
Classification [9.548744259567837]
映像シーン分類モデルは、映像の空間的(ピクセル的に)および時間的(フレーム的に)特性を効果的に捉えなければならない。
トークン列が与えられた個々のトークンに対して文脈化された表現を得るように設計された自己注意型トランスフォーマーモデルは、多くのコンピュータビジョンタスクで人気が高まっている。
本稿では,ビデオフレーム間の局所的・大域的時間的関係を利用して,各フレームの文脈的表現をより良くする自己注意ブロックを提案する。
論文 参考訳(メタデータ) (2021-10-26T19:58:32Z) - Hierarchical Multimodal Transformer to Summarize Videos [103.47766795086206]
変換器の大成功とビデオの自然な構造(フレームショットビデオ)に触発された階層変換器は,映像要約のために開発された。
2種類の情報を統合するために、2ストリーム方式で符号化し、階層変換器に基づいて多モード融合機構を開発する。
実際、広範な実験により、HMTは従来のRNNベースおよび注意に基づくビデオ要約手法のほとんどを超越していることが示された。
論文 参考訳(メタデータ) (2021-09-22T07:38:59Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Multi-modal Transformer for Video Retrieval [67.86763073161012]
ビデオの様々なモードを共同で符号化するマルチモーダルトランスを提案する。
自然言語に関しては,マルチモーダル変換器と組み合わさった言語を最適化するベストプラクティスについて検討する。
この新たなフレームワークにより,3つのデータセット上での映像検索の最先端化が可能となる。
論文 参考訳(メタデータ) (2020-07-21T07:38:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。