論文の概要: Multimodal Conversation Structure Understanding
- arxiv url: http://arxiv.org/abs/2505.17536v2
- Date: Mon, 02 Jun 2025 17:10:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.433752
- Title: Multimodal Conversation Structure Understanding
- Title(参考訳): マルチモーダル対話構造理解
- Authors: Kent K. Chang, Mackenzie Hanh Cramer, Anna Ho, Ti Ti Nguyen, Yilin Yuan, David Bamman,
- Abstract要約: 大きな言語モデルでは、きめ細かい会話構造を理解する能力は未解明のままである。
我々は,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
- 参考スコア(独自算出の注目度): 12.29827265137757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conversations are usually structured by roles -- who is speaking, who's being addressed, and who's listening -- and unfold in threads that break with changes in speaker floor or topical focus. While large language models (LLMs) have shown incredible capabilities in dialogue and reasoning, their ability to understand fine-grained conversational structure, especially in multi-modal, multi-party settings, remains underexplored. To address this gap, we introduce a suite of tasks focused on conversational role attribution (speaker, addressees, side-participants) and conversation threading (utterance linking and clustering), drawing on conversation analysis and sociolinguistics. To support those tasks, we present a human annotated dataset of 4,398 annotations for speakers and reply-to relationship, 5,755 addressees, and 3,142 side-participants. We evaluate popular audio-visual LLMs and vision-language models on our dataset, and our experimental results suggest that multimodal conversational structure understanding remains challenging. The most performant audio-visual LLM outperforms all vision-language models across all metrics, especially in speaker and addressee recognition. However, its performance drops significantly when conversation participants are anonymized. The number of conversation participants in a clip is the strongest negative predictor of role-attribution performance, while acoustic clarity (measured by pitch and spectral centroid) and detected face coverage yield positive associations. We hope this work lays the groundwork for future evaluation and development of multimodal LLMs that can reason more effectively about conversation structure.
- Abstract(参考訳): 会話は通常、だれが話し、誰に話しかけられ、誰が耳を傾けているかという役割によって構成され、スピーカーフロアやトピックの焦点の変化によって壊れるスレッドに展開されます。
大きな言語モデル(LLM)は対話や推論において驚くべき能力を示してきたが、特にマルチモーダル、マルチパーティの設定において、粒度の細かい会話構造を理解する能力はいまだに未熟である。
このギャップに対処するために、会話分析と社会言語学に基づいて、会話役割帰属(話者、出席者、副参加者)と会話スレッディング(発話リンクとクラスタリング)に焦点を当てた一連のタスクを導入する。
これらのタスクを支援するために,話者と回答関係のための4,398の注釈付きデータセット,5,755人のアドレナリ,3,142人のサイド参加者を提示する。
音声-視覚的LLMと視覚言語モデルの評価をデータセット上で行い, 実験結果から, マルチモーダル対話構造理解は依然として困難であることが示唆された。
最も高性能なオーディオ視覚LLMは、すべてのメトリクス、特に話者およびアドレス認識において、すべての視覚言語モデルより優れています。
しかし、会話参加者が匿名化されると、そのパフォーマンスは著しく低下する。
ビデオクリップ中の会話参加者数は, 音響的明瞭度(ピッチとスペクトルセントロイドで測定)と検出された顔のカバレッジが正の相関性を示す一方で, 役割帰属性能の最大の負の予測因子である。
本研究は,会話構造をより効果的に推論できるマルチモーダルLLMの今後の評価・開発のための基盤となることを願っている。
関連論文リスト
- Beyond Words: Multimodal LLM Knows When to Speak [25.374878759869333]
我々は、視覚、音声、テキスト間の微妙なマルチモーダル信号に依存する、短時間で反応する発話に重点を置いて、応答型のリアルタイム予測に重点を置いている。
実世界の会話ビデオから構築された新しいマルチモーダルデータセットを導入し、時間的に整列された視覚、聴覚、テキストストリームを含む。
MM-When2Speakは,視覚的,聴覚的,テキスト的コンテキストを適応的に統合し,応答がいつ発生すべきか,どの応答が適切かを予測するマルチモーダルLCMベースのモデルである。
論文 参考訳(メタデータ) (2025-05-20T17:42:34Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z) - Speaker Verification in Agent-Generated Conversations [47.6291644653831]
近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。
本研究では,2つの発話が同一話者から発せられるかどうかを検証することを目的とした,エージェント生成会話における話者検証という,新たな評価課題を紹介する。
論文 参考訳(メタデータ) (2024-05-16T14:46:18Z) - LaERC-S: Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics [25.284238441231853]
会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話中の発話ごとに人間の感情を識別するタスクである。
ERCにおける最近の研究は、感情状態を理解するために話者モデリングを用いた事前訓練された大規模言語モデル(LLM)の利用を模索している。
LLMを刺激する新しいフレームワークであるLaERC-Sを提案する。
論文 参考訳(メタデータ) (2024-03-12T02:37:11Z) - Affect Recognition in Conversations Using Large Language Models [9.689990547610664]
影響認識は人間のコミュニケーションにおいて重要な役割を担っている。
本研究では,会話における人間の影響を認識するための言語モデル(LLM)の能力について検討する。
論文 参考訳(メタデータ) (2023-09-22T14:11:23Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。