論文の概要: TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation
- arxiv url: http://arxiv.org/abs/2509.09685v1
- Date: Mon, 18 Aug 2025 05:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.714152
- Title: TalkPlayData 2: An Agentic Synthetic Data Pipeline for Multimodal Conversational Music Recommendation
- Title(参考訳): TalkPlayData 2: マルチモーダル対話型音楽レコメンデーションのためのエージェント合成データパイプライン
- Authors: Keunwoo Choi, Seungheon Doh, Juhan Nam,
- Abstract要約: TalkPlayData 2は、エージェントデータパイプラインによって生成されるマルチモーダルな会話音楽レコメンデーションのための合成データセットである。
TalkPlayData 2パイプラインでは、複数の大規模言語モデル(LLM)エージェントが特別なプロンプトでさまざまな役割の下で作成される。
すべてのLLMは音声と画像でマルチモーダルであり、マルチモーダルレコメンデーションと会話のシミュレーションを可能にする。
- 参考スコア(独自算出の注目度): 20.889365999166813
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present TalkPlayData 2, a synthetic dataset for multimodal conversational music recommendation generated by an agentic data pipeline. In TalkPlayData 2 pipeline, multiple large language model (LLM) agents are created under various roles with specialized prompts and access to different parts of information, and the chat data is acquired by logging the conversation between the Listener LLM and the Recsys LLM. To cover various conversation scenarios, for each conversation, the Listener LLM is conditioned on a finetuned conversation goal. Finally, all the LLMs are multimodal with audio and images, allowing a simulation of multimodal recommendation and conversation. In the LLM-as-a-judge and subjective evaluation experiments, TalkPlayData 2 achieved the proposed goal in various aspects related to training a generative recommendation model for music. TalkPlayData 2 and its generation code are open-sourced at https://talkpl.ai/talkplaydata2.html.
- Abstract(参考訳): 本研究では,エージェントデータパイプラインによって生成されたマルチモーダルな対話型音楽レコメンデーションのための合成データセットTalkPlayData 2を提案する。
TalkPlayData 2パイプラインでは、複数の大規模言語モデル(LLM)エージェントが特別なプロンプトと情報の異なる部分へのアクセスによってさまざまな役割の下で作成され、リスナーLMとRecsys LLMの会話をロギングすることでチャットデータを取得する。
様々な会話シナリオをカバーするために、各会話に対して、リスナーLLMは微調整された会話目標に条件付けされる。
最後に、全てのLLMは音声と画像によるマルチモーダルであり、マルチモーダルレコメンデーションと会話のシミュレーションを可能にする。
LLM-as-a-judgeと主観評価実験において、TalkPlayData 2は、音楽生成推薦モデルのトレーニングに関する様々な面で、提案された目標を達成した。
TalkPlayData 2とその生成コードはhttps://talkpl.ai/talkplaydata2.htmlでオープンソース化されている。
関連論文リスト
- Towards Anthropomorphic Conversational AI Part I: A Practical Framework [49.62013440962072]
会話に関わる人間の知性の重要な側面を再現するために設計されたマルチモジュールフレームワークを導入する。
アプローチの第2段階では、これらの会話データは、フィルタリングとラベル付けの後に、強化学習のためのトレーニングおよびテストデータとして機能する。
論文 参考訳(メタデータ) (2025-02-28T03:18:39Z) - TALKPLAY: Multimodal Music Recommendation with Large Language Models [6.830154140450626]
大規模言語モデル(LLM)を用いたトークン生成問題としてレコメンデーションを再構成する新しいマルチモーダル音楽レコメンデーションシステムTALKPLAYを提案する。
本システムは,コンテキストに関連のある応答を生成しながら,多様なユーザクエリから楽曲を効果的に推薦する。
質的,定量的評価により,TALKPLAYは,推奨性能と会話自然性の両方において,テキストや聴取履歴のみに基づく一助的アプローチを著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-02-19T13:28:20Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Beyond the Turn-Based Game: Enabling Real-Time Conversations with Duplex Models [66.24055500785657]
従来のターンベースのチャットシステムは、ユーザが応答を生成している間に、システムが言葉で対話することを防ぐ。
これらの制限を克服するため,既存のLCMをユーザを聴きながら出力を生成し,ユーザに対して即時フィードバックを提供する。
クエリとレスポンスの時間スライスを交互に行うデータセットを構築し、インスタントインタラクションにおける典型的なフィードバックタイプをカバーする。
論文 参考訳(メタデータ) (2024-06-22T03:20:10Z) - Bootstrapping LLM-based Task-Oriented Dialogue Agents via Self-Talk [11.706292228586332]
大規模言語モデル(LLM)は強力な対話エージェントであるが、特定の機能の実現に特化することは困難である。
本稿では,様々な役割における会話に係わるLLMを通して,より効果的なデータ収集手法を提案する。
このアプローチはLLMの“セルフトーク”を通じてトレーニングデータを生成し,教師付き微調整に利用することができる。
論文 参考訳(メタデータ) (2024-01-10T09:49:10Z) - AudioChatLlama: Towards General-Purpose Speech Abilities for LLMs [27.122094554340194]
我々は、エンドツーエンドの汎用音声処理と推論能力を備えた命令調整型Llama-2モデルを拡張する。
結果、AudioChatLlamaと呼ばれるエンドツーエンドモデルは、音声プロンプトをテキストの代替として利用し、会話を維持することができる。
論文 参考訳(メタデータ) (2023-11-12T06:56:14Z) - TikTalk: A Video-Based Dialogue Dataset for Multi-Modal Chitchat in Real
World [97.58623810402563]
我々はTikTalkと呼ばれるビデオベースのマルチモーダル対話データセットを導入する。
人気ビデオ共有プラットフォームから38Kのビデオを収集し、その下のユーザーから367Kの会話を投稿した。
ユーザーはビデオのマルチモーダルな体験に基づいて自発的な会話をし、現実世界のchitchatコンテキストを再現する。
論文 参考訳(メタデータ) (2023-01-14T10:18:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。