論文の概要: Aligning Backchannel and Dialogue Context Representations via Contrastive LLM Fine-Tuning
- arxiv url: http://arxiv.org/abs/2604.16622v1
- Date: Fri, 17 Apr 2026 18:19:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.109464
- Title: Aligning Backchannel and Dialogue Context Representations via Contrastive LLM Fine-Tuning
- Title(参考訳): コントラスト型LLMファインチューニングによる逆チャネルと対話コンテキストの調整
- Authors: Livia Qian, Gabriel Skantze,
- Abstract要約: バックチャネルは短い非断続的なフィードバック信号であり、語彙形式と韻律はプラグマティックな意味を共同で伝達する。
本稿では,2段階のフレームワークを提案する。まず,対話文を微調整した大規模言語モデルを用いて,リッチな文脈表現を導出する。
我々は,3進的類似性判断(韻律的および相互語彙的)と文脈バックチャネル適合性タスクを用いて,人間の知覚との整合性を評価する。
- 参考スコア(独自算出の注目度): 8.889205646367058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Backchannels (e.g., `yeah', `mhm', and `right') are short, non-interruptive feedback signals whose lexical form and prosody jointly convey pragmatic meaning. While prior computational research has largely focused on predicting backchannel timing, the relationship between lexico-prosodic form and meaning remains underexplored. We propose a two-stage framework: first, fine-tuning large language models on dialogue transcripts to derive rich contextual representations; and second, learning a joint embedding space for dialogue contexts and backchannel realizations. We evaluate alignment with human perception via triadic similarity judgments (prosodic and cross-lexical) and a context-backchannel suitability task. Our results demonstrate that the learned projections substantially improve context-backchannel retrieval compared to previous methods. In addition, they reveal that backchannel form is highly sensitive to extended conversational context and that the learned embeddings align more closely with human judgments than raw WavLM features.
- Abstract(参考訳): バックチャネル(e g , `yeah', `mhm', `right')は、語彙形式と韻律が実用的な意味を共同で伝達する短い非断続的なフィードバック信号である。
従来の計算研究では、バックチャネルのタイミングの予測に主に焦点が当てられていたが、レキシコ韻律形式と意味の関係は未解明のままである。
2段階のフレームワークを提案する: まず、対話の文脈表現を導出するために、対話のテクスチャを微調整した大きな言語モデルと、対話のコンテキストとバックチャネルの実現のための共同埋め込み空間を学習する。
我々は,3進的類似性判断(韻律的および相互語彙的)と文脈バックチャネル適合性タスクを用いて,人間の知覚との整合性を評価する。
以上の結果から,従来の手法と比較して,学習したプロジェクションがコンテキストバックチャネル検索を大幅に改善していることが示唆された。
さらに、バックチャネル形式は会話の文脈の延長に非常に敏感であり、学習された埋め込みは、生のWavLM特徴よりも人間の判断とより密に一致していることを明らかにした。
関連論文リスト
- Modeling and Benchmarking Spoken Dialogue Rewards with Modality and Colloquialness [45.06366615980232]
SDiaReward-Datasetでトレーニングしたエンドツーエンドのマルチターン報酬モデルであるSDiaRewardを紹介する。
完全なマルチターン音声エピソードで直接動作し、ペアワイズ・プライオリティ・インスペクションに最適化されている。
実験により、SDiaRewardは最先端のペアの選好精度を達成することが示された。
論文 参考訳(メタデータ) (2026-03-16T06:39:30Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - DialAug: Mixing up Dialogue Contexts in Contrastive Learning for Robust
Conversational Modeling [3.3578533367912025]
本稿では,対話コンテキストの拡張バージョンを学習目的に組み込むフレームワークを提案する。
提案手法は,従来のデータ拡張手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-15T23:39:41Z) - DialogueCSE: Dialogue-based Contrastive Learning of Sentence Embeddings [33.89889949577356]
本稿では,対話型コントラスト学習手法であるDialogueCSEを提案する。
我々は,Microsoft Dialogue Corpus,Jing Dong Dialogue Corpus,E-Commerce Dialogue Corpusの3つの多ターン対話データセットについて評価を行った。
論文 参考訳(メタデータ) (2021-09-26T13:25:41Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - Learning Reasoning Paths over Semantic Graphs for Video-grounded
Dialogues [73.04906599884868]
対話文脈(PDC)における推論経路の新しい枠組みを提案する。
PDCモデルは、各質問と回答の語彙成分に基づいて構築されたセマンティックグラフを通じて、対話間の情報フローを発見する。
本モデルでは,この推論経路を通じて視覚情報とテキスト情報を逐次的に処理し,提案する特徴を用いて回答を生成する。
論文 参考訳(メタデータ) (2021-03-01T07:39:26Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。