論文の概要: "Mm, Wat?" Detecting Other-initiated Repair Requests in Dialogue
- arxiv url: http://arxiv.org/abs/2510.24628v1
- Date: Tue, 28 Oct 2025 16:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:37.289539
- Title: "Mm, Wat?" Detecting Other-initiated Repair Requests in Dialogue
- Title(参考訳): 「Mm, Wat?」対話における他の修復要請の検出
- Authors: Anh Ngo, Nicolas Rollet, Catherine Pelachaud, Chloe Clavel,
- Abstract要約: 本研究では,オランダ語対話における修復開始を自動的に検出するマルチモーダルモデルを提案する。
その結果,韻律的手がかりは言語的特徴を補完し,事前学習されたテキストと音声の埋め込みの結果を大幅に改善することがわかった。
- 参考スコア(独自算出の注目度): 1.0616273526777913
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Maintaining mutual understanding is a key component in human-human conversation to avoid conversation breakdowns, in which repair, particularly Other-Initiated Repair (OIR, when one speaker signals trouble and prompts the other to resolve), plays a vital role. However, Conversational Agents (CAs) still fail to recognize user repair initiation, leading to breakdowns or disengagement. This work proposes a multimodal model to automatically detect repair initiation in Dutch dialogues by integrating linguistic and prosodic features grounded in Conversation Analysis. The results show that prosodic cues complement linguistic features and significantly improve the results of pretrained text and audio embeddings, offering insights into how different features interact. Future directions include incorporating visual cues, exploring multilingual and cross-context corpora to assess the robustness and generalizability.
- Abstract(参考訳): 相互理解を維持することは、人間と人間の会話において重要な要素であり、特に補修(Orether-Initiated repair, OIR)が重要な役割を担っている。
しかし、会話エージェント (Conversational Agents, CAs) は、ユーザによる修復開始の認識に失敗し、故障や解除につながっている。
本研究では,会話分析における言語的特徴と韻律的特徴を統合することで,オランダ語対話における修復開始を自動的に検出するマルチモーダルモデルを提案する。
その結果、韻律的手がかりは言語的特徴を補完し、事前訓練されたテキストと音声の埋め込みの結果を大幅に改善し、異なる特徴がどのように相互作用するかについての洞察を提供することがわかった。
今後の方向性には、視覚的手がかりの取り入れ、多言語およびコンテキスト横断コーパスの探索、堅牢性と一般化性の評価などが含まれる。
関連論文リスト
- Repairs in a Block World: A New Benchmark for Handling User Corrections with Multi-Modal Language Models [48.42142115255159]
命令追従操作タスクにおけるマルチモーダルなTPRシーケンスのデータセットであるBlockWorld-Repairsをリリースする。
現状のビジョンと言語モデル(VLM)を複数の設定で評価し,TPRの処理能力と正確な応答性に着目した。
以上の結果から,これらのモデルはまだマルチモーダル・コラボレーティブ・セッティングにデプロイする準備が整っていないことが示唆された。
論文 参考訳(メタデータ) (2024-09-21T21:06:25Z) - An Analysis of Dialogue Repair in Voice Assistants [0.0]
音声対話システムは、クエリに対するリアルタイム応答を提供することによって、人間と機械のインタラクションを変革した。
本研究では,仮想アシスタントとユーザ間の対話修復における対話言語の重要性について検討する。
発見は、いくつかのアシスタント生成戦略を明らかにしているが、"hh?"のような人間のような修復戦略を再現できない。
論文 参考訳(メタデータ) (2023-11-07T12:50:11Z) - Acoustic and linguistic representations for speech continuous emotion
recognition in call center conversations [2.0653090022137697]
本稿では,AlloSat corpus へのトランスファー学習の一形態として,事前学習した音声表現の利用について検討する。
実験により,事前学習した特徴を用いて得られた性能の大きな向上を確認した。
驚いたことに、言語内容が満足度予測の主要な要因であることは明らかでした。
論文 参考訳(メタデータ) (2023-10-06T10:22:51Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - An Analysis of Dialogue Repair in Virtual Voice Assistants [0.0]
本研究は、英語とスペイン語の両方で2人の人気のあるアシスタントによる補修開始器の使用について検討した。
最終的に、データは、人間のアシスタントと人間の対話修復戦略に違いがあるだけでなく、アシスタントと研究言語にも同様の違いがあることを実証した。
論文 参考訳(メタデータ) (2023-07-13T21:57:28Z) - Self-supervised Dialogue Learning for Spoken Conversational Question
Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。
本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。
提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文 参考訳(メタデータ) (2021-06-04T00:09:38Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z) - Masking Orchestration: Multi-task Pretraining for Multi-role Dialogue
Representation Learning [50.5572111079898]
マルチロール対話理解は、質問応答、行動分類、対話要約など、幅広い多様なタスクを含む。
対話コーパスは豊富に利用可能であるが、特定の学習タスクのためのラベル付きデータは非常に不足しており、高価である。
本研究では,教師なし事前学習タスクを用いた対話文脈表現学習について検討する。
論文 参考訳(メタデータ) (2020-02-27T04:36:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。