論文の概要: Video-Grounded Dialogues with Pretrained Generation Language Models
- arxiv url: http://arxiv.org/abs/2006.15319v1
- Date: Sat, 27 Jun 2020 08:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 07:24:50.133180
- Title: Video-Grounded Dialogues with Pretrained Generation Language Models
- Title(参考訳): 事前訓練された世代言語モデルを用いたビデオグラウンド対話
- Authors: Hung Le, Steven C.H. Hoi
- Abstract要約: 我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
- 参考スコア(独自算出の注目度): 88.15419265622748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained language models have shown remarkable success in improving
various downstream NLP tasks due to their ability to capture dependencies in
textual data and generate natural responses. In this paper, we leverage the
power of pre-trained language models for improving video-grounded dialogue,
which is very challenging and involves complex features of different dynamics:
(1) Video features which can extend across both spatial and temporal
dimensions; and (2) Dialogue features which involve semantic dependencies over
multiple dialogue turns. We propose a framework by extending GPT-2 models to
tackle these challenges by formulating video-grounded dialogue tasks as a
sequence-to-sequence task, combining both visual and textual representation
into a structured sequence, and fine-tuning a large pre-trained GPT-2 network.
Our framework allows fine-tuning language models to capture dependencies across
multiple modalities over different levels of information: spatio-temporal level
in video and token-sentence level in dialogue context. We achieve promising
improvement on the Audio-Visual Scene-Aware Dialogues (AVSD) benchmark from
DSTC7, which supports a potential direction in this line of research.
- Abstract(参考訳): 事前訓練された言語モデルは、テキストデータの依存関係をキャプチャし、自然な応答を生成する能力により、様々な下流のNLPタスクの改善に顕著な成功を収めている。
本稿では,(1)空間的および時間的次元にまたがる映像的特徴と,(2)複数の対話にまたがる意味的依存関係を伴う対話的特徴という,異なるダイナミクスの複雑な特徴を包含するビデオ・グラウンド・対話の改善のために,事前学習された言語モデルのパワーを活用する。
本稿では,gpt-2モデルを拡張して,映像接地対話タスクをシーケンスツーシーケンスタスクとして定式化し,視覚表現とテキスト表現を結合し,事前学習した大規模gpt-2ネットワークを微調整する枠組みを提案する。
当社のフレームワークでは、微調整された言語モデルによって、さまざまなレベルの情報に対する複数のモダリティ間の依存関係をキャプチャすることができます。
本研究では,dstc7からavsd(audio-visual scene-aware dialogues)ベンチマークの性能向上を期待する。
関連論文リスト
- OmniFlatten: An End-to-end GPT Model for Seamless Voice Conversation [24.68804661538364]
全音声対話システムは人間と人間の相互作用を著しく反映している。
低レイテンシと自然なインタラクションを実現することは、大きな課題です。
エンドツーエンド音声対話システムは、効率的で自然なエンドツーエンドシステムを開発する上で有望な方向である。
OmniFlatten氏によって生成された対話のオーディオサンプルは、このWebサイトにある。
論文 参考訳(メタデータ) (2024-10-23T11:58:58Z) - OLViT: Multi-Modal State Tracking via Attention-Based Embeddings for
Video-Grounded Dialog [10.290057801577662]
OLViTは、マルチモーダルアテンションベースのダイアログ状態トラッカー上で動作するビデオダイアログの新しいモデルである。
オブジェクト状態追跡器(OST)と言語状態追跡器(LST)の出力に基づいてグローバルなダイアログ状態を保持する。
論文 参考訳(メタデータ) (2024-02-20T17:00:59Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Collaborative Reasoning on Multi-Modal Semantic Graphs for
Video-Grounded Dialogue Generation [53.87485260058957]
本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。
本課題の主な課題は,(1)事前学習言語モデル(PLM)に映像データを統合することの難しさである。
異なるモーダルの推論を協調的に行うマルチエージェント強化学習法を提案する。
論文 参考訳(メタデータ) (2022-10-22T14:45:29Z) - Back to the Future: Bidirectional Information Decoupling Network for
Multi-turn Dialogue Modeling [80.51094098799736]
ユニバーサル対話エンコーダとして双方向情報デカップリングネットワーク(BiDeN)を提案する。
BiDeNは過去と将来の両方のコンテキストを明示的に取り入れており、幅広い対話関連のタスクに一般化することができる。
異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。
論文 参考訳(メタデータ) (2022-04-18T03:51:46Z) - BiST: Bi-directional Spatio-Temporal Reasoning for Video-Grounded
Dialogues [95.8297116307127]
ビデオにおける高精細クエリのための視覚言語ニューラルフレームワークBi-directional Spatio-Temporal Learning (BiST)を提案する。
具体的には,空間的情報と時間的情報の両方を利用して,2つの特徴空間間の動的情報拡散を学習する。
BiSTは競争性能を達成し、大規模なAVSDベンチマークで適切な応答を生成する。
論文 参考訳(メタデータ) (2020-10-20T07:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。