論文の概要: CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos
- arxiv url: http://arxiv.org/abs/2303.09713v1
- Date: Fri, 17 Mar 2023 01:10:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:59:01.682771
- Title: CHAMPAGNE: Learning Real-world Conversation from Large-Scale Web Videos
- Title(参考訳): CHAMPAGNE: 大規模Webビデオから実世界の会話を学ぶ
- Authors: Seungju Han, Jack Hessel, Nouha Dziri, Yejin Choi, Youngjae Yu
- Abstract要約: 本稿では,視覚的文脈を考慮した会話生成モデルCHAMPAGNEを紹介する。
CHAMPAGNEを訓練するために,大規模な18Mビデオ対話コーパスであるChAMPAGNEを収集・リリースする。
実験により,CHAMPAGNEは4つの視覚言語18Mから会話を学習し,そして2つの微調整を行うと,実世界の会話における最先端の結果が得られることが示された。
- 参考スコア(独自算出の注目度): 66.77463327466748
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual information is central to conversation: body gestures and facial
expressions, for example, contribute to meaning that transcends words alone. To
date, however, most neural conversational models are limited to just text. We
introduce CHAMPAGNE, a generative model of conversations that can account for
visual contexts. To train CHAMPAGNE, we collect and release YTD-18M, a
large-scale corpus of 18M video-based dialogues. YTD-18M is constructed from
web videos: crucial to our data collection pipeline is a pretrained language
model that converts error-prone automatic transcripts to a cleaner dialogue
format while maintaining meaning. Human evaluation reveals that YTD-18M is more
sensible and specific than prior resources (MMDialog, 1M dialogues), while
maintaining visual-groundedness. Experiments demonstrate that 1) CHAMPAGNE
learns to conduct conversation from YTD-18M; and 2) when fine-tuned, it
achieves state-of-the-art results on four vision-language tasks focused on
real-world conversations. We release data, models, and code at
https://seungjuhan.me/champagne.
- Abstract(参考訳): 視覚情報は会話の中心であり、例えば、身体のジェスチャーや表情は、単語のみを超越する意味に寄与する。
しかし今のところ、ほとんどのニューラルな会話モデルはテキストのみに限られている。
本稿では,視覚的文脈を考慮した会話生成モデルCHAMPAGNEを紹介する。
CHAMPAGNEを訓練するために,大規模な18Mビデオ対話コーパスYTD-18Mを収集・リリースする。
YTD-18MはWebビデオから構築されている: 我々のデータ収集パイプラインにとって重要なのは、エラーを起こしやすい自動書き起こしを、意味を保ちながらよりクリーンな対話形式に変換する事前訓練された言語モデルである。
人間による評価では、ytd-18mは視覚的な接地性を維持しつつ、以前の資源(mmダイアログ、1m対話)よりも賢明で特定できる。
実験が示すのは
1)CHAMPAGNEはYTD-18Mから会話を学習し、
2)詳細な調整を行うと,実世界の会話に注目した4つの視覚言語タスクの最先端結果が得られる。
データ、モデル、コードをhttps://seungjuhan.me/champagne.comでリリースします。
関連論文リスト
- Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - TANet: Thread-Aware Pretraining for Abstractive Conversational
Summarization [27.185068253347257]
我々はRedditコミュニティの複数人による議論に基づいて,RCSと呼ばれる大規模(11M)事前学習データセットを構築した。
次に、スレッド対応のTransformerベースのネットワークであるTANetを紹介する。
会話を文の列として扱う既存の事前学習モデルとは異なり、本質的な文脈依存は会話全体を理解する上で重要な役割を担っていると論じる。
論文 参考訳(メタデータ) (2022-04-09T16:08:46Z) - OpenViDial: A Large-Scale, Open-Domain Dialogue Dataset with Visual
Contexts [35.57757367869986]
大規模なマルチモジュール対話データセットであるbf OpenViDialをリリースする。
OpenViDialには、合計11万の対話ターンが含まれている。
テキストとビジュアルの両方のコンテキストを利用したエンコーダデコーダモデルを提案する。
論文 参考訳(メタデータ) (2020-12-30T03:02:50Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - VD-BERT: A Unified Vision and Dialog Transformer with BERT [161.0016161052714]
VD-BERTは,視覚対話型トランスフォーマーの簡易かつ効果的なフレームワークである。
我々は、視覚的グラウンドトレーニングにより、視覚と対話内容の効果的な融合にBERTを適用した。
我々のモデルは新たな芸術状態をもたらし、シングルモデルとアンサンブル設定の両方で最高位を達成する。
論文 参考訳(メタデータ) (2020-04-28T04:08:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。