論文の概要: KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus
- arxiv url: http://arxiv.org/abs/2503.06899v1
- Date: Mon, 10 Mar 2025 04:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:49:58.446899
- Title: KwaiChat: A Large-Scale Video-Driven Multilingual Mixed-Type Dialogue Corpus
- Title(参考訳): KwaiChat: 大規模ビデオ駆動多言語混在型対話コーパス
- Authors: Xiaoming Shi, Zeming Liu, Yiming Lei, Chenkai Zhang, Haitao Leng, Chuan Wang, Qingjie Liu, Wanxiang Che, Shaoguo Liu, Size Li, Yunhong Wang,
- Abstract要約: 本稿では,人間間ビデオ駆動型多言語混在型対話コーパスを提案する。
KwaiChatのコーパスには合計93,209の動画と246,080の対話があり、4つの対話タイプ、30のドメイン、4つの言語、13のトピックが含まれている。
KwaiChat上での 7 つの異なる LLM の解析により、GPT-4o が最高の性能を発揮するが、この状況では性能が良くないことが明らかとなった。
- 参考スコア(独自算出の注目度): 69.46707346122113
- License:
- Abstract: Video-based dialogue systems, such as education assistants, have compelling application value, thereby garnering growing interest. However, the current video-based dialogue systems are limited by their reliance on a single dialogue type, which hinders their versatility in practical applications across a range of scenarios, including question-answering, emotional dialog, etc. In this paper, we identify this challenge as how to generate video-driven multilingual mixed-type dialogues. To mitigate this challenge, we propose a novel task and create a human-to-human video-driven multilingual mixed-type dialogue corpus, termed KwaiChat, containing a total of 93,209 videos and 246,080 dialogues, across 4 dialogue types, 30 domains, 4 languages, and 13 topics. Additionally, we establish baseline models on KwaiChat. An extensive analysis of 7 distinct LLMs on KwaiChat reveals that GPT-4o achieves the best performance but still cannot perform well in this situation even with the help of in-context learning and fine-tuning, which indicates that the task is not trivial and needs further research.
- Abstract(参考訳): 教育助手のようなビデオベースの対話システムは、説得力のある応用価値を持ち、関心が高まりつつある。
しかし、現在のビデオベースの対話システムは、単一の対話型に依存しているため、質問応答や感情対話など、様々なシナリオにおける汎用性を妨げている。
本稿では,この課題を,ビデオ駆動型多言語混在型対話の作り方として認識する。
そこで我々は,この課題を緩和するために,対話型4種類,ドメイン30種類,言語4種類,トピック13の合計93,209件のビデオと246,080件の対話を含む,人対人間のビデオ駆動型多言語混在型対話コーパス(KwaiChat)を提案する。
さらに, KwaiChat のベースラインモデルを構築した。
KwaiChat上での 7 つの異なる LLM の広範な分析により、GPT-4o は最高の性能を達成できるが、文脈内学習や微調整の助けを借りても、この状況では依然としてうまく機能しないことが明らかになった。
関連論文リスト
- TV-Dialogue: Crafting Theme-Aware Video Dialogues with Immersive Interaction [25.851857218815415]
本稿では,ビデオコンテンツに適合し,ユーザ指定のテーマに準拠する新たな対話生成を目的とした,TVDC(Theme-aware Video Dialogue Crafting)を紹介する。
TV-Dialogueは、テーマアライメントと視覚的一貫性の両方を保証する、新しいマルチモーダルエージェントフレームワークである。
本研究は, 映像再生, フィルムダビング, 下流マルチモーダルタスクにおけるTVダイアログの活用など, 様々な応用の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2025-01-31T08:04:32Z) - Can xLLMs Understand the Structure of Dialog? Exploring Multilingual Response Generation in Complex Scenarios [8.131774353504472]
マルチパーティポッドキャスト対話をベースとした,高品質な並列多言語データセットであるXMPを紹介する。
データセットの各サンプルには、社会、文化、政治、エンターテイメントなど、幅広いトピックを議論する少なくとも3人の参加者が含まれている。
このような複雑な対話シナリオに適用した場合、LLMの従来認識されていた多言語機能に重大な制限が生じる。
論文 参考訳(メタデータ) (2025-01-20T04:33:03Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Let's Go Real Talk: Spoken Dialogue Model for Face-to-Face Conversation [55.043492250775294]
本稿では,新しい対面音声対話モデルを提案する。
ユーザ入力から音声視覚音声を処理し、応答として音声視覚音声を生成する。
また,最初の大規模マルチモーダル音声対話コーパスであるMultiDialogを紹介する。
論文 参考訳(メタデータ) (2024-06-12T04:48:36Z) - Conversations as a Source for Teaching Scientific Concepts at Different Education Levels [22.315652391541285]
本稿では,様々な難易度で科学的概念の会話的教えを容易にするための新しい情報源を提案する。
我々は、このデータソースを様々な方法で分析し、文脈的に適切な応答を生成するのに使用できる多様なサンプル群を提供することを示す。
論文 参考訳(メタデータ) (2024-04-16T11:33:36Z) - BotChat: Evaluating LLMs' Capabilities of Having Multi-Turn Dialogues [72.65163468440434]
本報告では,人間型マルチターンチャットのための既存大規模言語モデルの予備的評価を行う。
そこで我々は,ChatSEEDに基づくマルチターン対話を発話によって生成する大規模言語モデル(LLM)を提案する。
GPT-4は優れた品質の人型多元対話を生成できるが、その性能は著しく上回っている。
論文 参考訳(メタデータ) (2023-10-20T16:53:51Z) - ChatPLUG: Open-Domain Generative Dialogue System with Internet-Augmented
Instruction Tuning for Digital Human [76.62897301298699]
ChatPLUGは、デジタルヒューマンアプリケーションのための中国のオープンドメイン対話システムである。
モデルネームは, 自動評価と人的評価の両方において, 最先端の中国語対話システムより優れていることを示す。
高速な推論でスマートスピーカーやインスタントメッセージアプリケーションのような実世界のアプリケーションにモデルネームをデプロイします。
論文 参考訳(メタデータ) (2023-04-16T18:16:35Z) - MMChat: Multi-Modal Chat Dataset on Social Media [8.904627457711683]
MMChatは大規模多モード対話コーパス(32.4Mの生対話と120.84Kのフィルタリング対話)
架空の映画からクラウドソースまたは収集された以前のコーパスとは異なり、MMChatはソーシャルメディア上の実際の会話から収集された画像付き対話を含んでいる。
画像特徴量にアテンションルーティング機構を適用することで,対話生成タスクにおけるこの問題に対処するベンチマークモデルを開発した。
論文 参考訳(メタデータ) (2021-08-16T15:27:49Z) - Video-Grounded Dialogues with Pretrained Generation Language Models [88.15419265622748]
我々は、ビデオ地上対話を改善するために、事前学習された言語モデルのパワーを利用する。
本稿では,シーケンス・ツー・グラウンドの対話タスクを,シーケンス・トゥ・グラウンドのタスクとして定式化するフレームワークを提案する。
我々のフレームワークは、微調整の言語モデルで複数のモダリティにまたがる依存関係をキャプチャできる。
論文 参考訳(メタデータ) (2020-06-27T08:24:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。