Fugu-MT 論文翻訳(概要): DialBGM: A Benchmark for Background Music Recommendation from Everyday Multi-Turn Dialogues

論文の概要: DialBGM: A Benchmark for Background Music Recommendation from Everyday Multi-Turn Dialogues

arxiv url: http://arxiv.org/abs/2604.07895v1
Date: Thu, 09 Apr 2026 07:06:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-10 18:34:05.75726
Title: DialBGM: A Benchmark for Background Music Recommendation from Everyday Multi-Turn Dialogues
Title（参考訳）: DialBGM: 毎日のマルチトゥルンダイアログからのバックグラウンド音楽推薦ベンチマーク
Authors: Joonhyeok Shin, Jaehoon Kang, Yujun Lee, Hannah Lee, Yejin Lee, Yoonji Park, Kyuhong Shim,
Abstract要約: 1200のオープンドメインの日次対話を4つの音楽クリップと組み合わせたベンチマークであるDialBGMを提示する。ランク付けは背景適合性基準(文脈的関連性、非侵襲性、一貫性など)によって決定される。トップランクのクリップを選択すると、Hit@1の35%を超えるモデルはない。
参考スコア（独自算出の注目度）: 9.72869980486316
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Selecting an appropriate background music (BGM) that supports natural human conversation is a common production step in media and interactive systems. In this paper, we introduce dialogue-conditioned BGM recommendation, where a model should select non-intrusive, fitting music for a multi-turn conversation that often contains no music descriptors. To study this novel problem, we present DialBGM, a benchmark of 1,200 open-domain daily dialogues, each paired with four candidate music clips and annotated with human preference rankings. Rankings are determined by background suitability criteria, including contextual relevance, non-intrusiveness, and consistency. We evaluate a wide range of open-source and proprietary models, including audio-language models and multimodal LLMs, and show that current models fall far short of human judgments; no model exceeds 35% Hit@1 when selecting the top-ranked clip. DialBGM provides a standardized benchmark for developing discourse-aware methods for BGM selection and for evaluating both retrieval-based and generative models.
Abstract（参考訳）: 自然な人間の会話をサポートする適切なバックグラウンド音楽(BGM)を選択することは、メディアおよびインタラクティブシステムにおける一般的な生産段階である。本稿では, 対話条件付きBGMレコメンデーションを提案する。そこでは, しばしば音楽記述子を含まないマルチターン会話に対して, モデルが非侵入的で適合な音楽を選択する。この問題を調査するために、1200のオープンドメインの日次対話のベンチマークであるDialBGMを紹介した。ランク付けは背景適合性基準(文脈的関連性、非侵襲性、一貫性など)によって決定される。我々は、オーディオ言語モデルやマルチモーダルLLMなど、幅広いオープンソースおよびプロプライエタリモデルを評価し、現在のモデルが人間の判断にはるかに及ばないことを示す。 DialBGMは、BGM選択のための談話認識手法の開発と、検索ベースおよび生成モデルの両方を評価するための標準化されたベンチマークを提供する。

関連論文リスト

VOGUE: A Multimodal Dataset for Conversational Recommendation in Fashion [18.017186369021154]
VOGUEは、現実的なファッションショッピングシナリオにおける60人の人間対話の新たなデータセットである。各対話は、共有されたビジュアルカタログ、アイテムメタデータ、ユーザーファッションプロファイルと履歴、およびSeekersとAssistantsの会話後の評価と組み合わせられる。 VOGUEの初期解析では,視覚的に接地された対話の特異なダイナミクスが明らかとなった。
論文参考訳（メタデータ） (2025-10-24T04:45:29Z)
Audio Does Matter: Importance-Aware Multi-Granularity Fusion for Video Moment Retrieval [58.640807985155554]
Video Moment Retrieval (VMR)は、特定のクエリに関連する特定のモーメントを検索することを目的としている。既存のVMRメソッドの多くは、補完的ではあるが重要なオーディオのモダリティを無視しながら、視覚的およびテキスト的モダリティにのみ焦点をあてている。本稿では,VMRの音声ビジョンコンテキストを動的かつ選択的に集約する,新しいImportance-Aware Multi-Granularity fusion Model (IMG)を提案する。
論文参考訳（メタデータ） (2025-08-06T09:58:43Z)
ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [47.14083940177122]
ThinkSoundは、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。提案手法は,3つの相補的な段階 – セマンティック・コヒーレント,インタラクティブなオブジェクト中心の改良,ターゲット編集 – に分解する。実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-06-26T16:32:06Z)
Music Discovery Dialogue Generation Using Human Intent Analysis and Large Language Models [10.022036983890091]
本稿では,多言語モデル(LLM)とユーザ意図,システム動作,音楽属性を用いたリッチな音楽発見対話のためのデータ生成フレームワークを提案する。このフレームワークをMario Songデータセットに適用することにより,大規模言語モデルに基づくPseudo Music DialogueデータセットであるLP-MusicDialogを作成する。評価の結果,人工音声データセットは,既存の小さな対話データセットと競合することがわかった。
論文参考訳（メタデータ） (2024-11-11T23:40:45Z)
Diff-BGM: A Diffusion Model for Video Background Music Generation [16.94631443719866]
ビデオと音楽に関するマルチモーダル情報を提供するために,詳細なアノテーションとショット検出を備えた高品質な音楽ビデオデータセットを提案する。次に,音楽の多様性や音楽と映像のアライメントなど,音楽の質を評価するための評価指標を提案する。 Diff-BGMフレームワークは、ビデオの背景音楽を自動的に生成し、生成過程において異なる信号を用いて音楽の異なる側面を制御する。
論文参考訳（メタデータ） (2024-05-20T09:48:36Z)
Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文参考訳（メタデータ） (2023-05-12T14:00:26Z)
V2Meow: Meowing to the Visual Beat via Video-to-Music Generation [47.076283429992664]
V2Meow(V2Meow)は、様々な種類のビデオ入力に対して高品質な音楽オーディオを制作できるビデオ・音楽生成システムである。ビデオフレームから抽出した訓練済みの汎用視覚特徴を条件づけて、高忠実度オーディオ波形を合成する。
論文参考訳（メタデータ） (2023-05-11T06:26:41Z)
Talk the Walk: Synthetic Data Generation for Conversational Music Recommendation [62.019437228000776]
本稿では,広く利用可能なアイテムコレクションにおいて,符号化された専門知識を活用することで,現実的な高品質な会話データを生成するTalkWalkを提案する。人間の収集したデータセットで100万以上の多様な会話を生成します。
論文参考訳（メタデータ） (2023-01-27T01:54:16Z)
Listener Modeling and Context-aware Music Recommendation Based on Country Archetypes [10.19712238203935]
音楽の好みは、リスナーの文化的・社会経済的背景によって強く形作られています。我々は、最先端の教師なし学習技術を用いて、楽曲のきめ細かいレベルにおける音楽嗜好の国別プロファイルを調査する。暗黙的なユーザフィードバックを活用する,コンテキスト対応の音楽レコメンデーションシステムを提案する。
論文参考訳（メタデータ） (2020-09-11T17:59:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。