論文の概要: Towards Stable and Personalised Profiles for Lexical Alignment in Spoken Human-Agent Dialogue
- arxiv url: http://arxiv.org/abs/2509.04104v1
- Date: Thu, 04 Sep 2025 11:07:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.138507
- Title: Towards Stable and Personalised Profiles for Lexical Alignment in Spoken Human-Agent Dialogue
- Title(参考訳): 音声対話における語彙アライメントのための安定・パーソナライズされたプロファイルに向けて
- Authors: Keara Schaaij, Roel Boumans, Tibor Bosse, Iris Hendrickx,
- Abstract要約: 本研究では,安定な個人化された語彙プロファイルの構築を語彙アライメントの基礎として検討する。
10分間の音声書き起こし後に作成された小型でコンパクトなプロファイルは、性能とデータ効率の両面で最高のバランスを示した。
- 参考スコア(独自算出の注目度): 1.3416169841532526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lexical alignment, where speakers start to use similar words across conversation, is known to contribute to successful communication. However, its implementation in conversational agents remains underexplored, particularly considering the recent advancements in large language models (LLMs). As a first step towards enabling lexical alignment in human-agent dialogue, this study draws on strategies for personalising conversational agents and investigates the construction of stable, personalised lexical profiles as a basis for lexical alignment. Specifically, we varied the amounts of transcribed spoken data used for construction as well as the number of items included in the profiles per part-of-speech (POS) category and evaluated profile performance across time using recall, coverage, and cosine similarity metrics. It was shown that smaller and more compact profiles, created after 10 min of transcribed speech containing 5 items for adjectives, 5 items for conjunctions, and 10 items for adverbs, nouns, pronouns, and verbs each, offered the best balance in both performance and data efficiency. In conclusion, this study offers practical insights into constructing stable, personalised lexical profiles, taking into account minimal data requirements, serving as a foundational step toward lexical alignment strategies in conversational agents.
- Abstract(参考訳): 話者が会話全体で同様の言葉を使い始めるレキシカルアライメントは、コミュニケーションの成功に寄与することが知られている。
しかし,近年の大規模言語モデル (LLM) の進歩を考えると,会話エージェントの実装はいまだ未定である。
本研究は,人間とエージェントの対話における語彙的アライメントの実現に向けた第一歩として,対話エージェントをパーソナライズするための戦略を考察し,語彙的アライメントの基礎として,安定な個人化された語彙的プロファイルの構築について検討する。
具体的には,構成に使用する音声データの書き起こし量と,音声(POS)カテゴリごとのプロファイルに含まれる項目数と,リコール,カバレッジ,コサイン類似度測定値を用いて時間内プロファイル性能を評価した。
その結果,形容詞5項目,助詞5項目,副詞・名詞・代名詞・動詞10項目を含む10分間の書き起こし音声の10分後に作成された小型でコンパクトなプロファイルが,性能とデータ効率の両面で最高のバランスを示した。
結論として、本研究では、最小限のデータ要件を考慮して、安定的でパーソナライズされた語彙プロファイルを構築するための実践的な洞察を提供し、会話エージェントにおける語彙アライメント戦略への基礎的なステップとして機能する。
関連論文リスト
- Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。
AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。
本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-26T16:45:20Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - The time scale of redundancy between prosody and linguistic context [22.04241078302997]
単語の韻律的特徴は、拡張された過去の文脈を確実に予測する必要がある。
また、単語の韻律的特徴は、将来の単語と多少の冗長性を示すが、1-2ワードの短いスケールしか持たない。
論文 参考訳(メタデータ) (2025-03-14T17:48:23Z) - SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。
伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。
長文対話要約のための話者強化事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T04:50:00Z) - Quantifying the redundancy between prosody and text [67.07817268372743]
我々は大きな言語モデルを用いて、韻律と単語自体の間にどれだけの情報が冗長であるかを推定する。
単語が持つ情報と韻律情報の間には,複数の韻律的特徴にまたがる高い冗長性が存在する。
それでも、韻律的特徴はテキストから完全には予測できないことが観察され、韻律は単語の上下に情報を運ぶことが示唆された。
論文 参考訳(メタデータ) (2023-11-28T21:15:24Z) - Few-Shot Spoken Language Understanding via Joint Speech-Text Models [18.193191170754744]
テキストと協調的に事前学習した音声表現モデルに関する最近の研究は、音声表現の改善の可能性を示している。
このような共有表現を活用して、音声言語理解タスクにおける限られたデータ可用性の持続的課題に対処する。
事前訓練された音声テキストモデルを用いることで、テキスト上で微調整されたモデルを音声テストデータに効果的に転送できることが分かる。
論文 参考訳(メタデータ) (2023-10-09T17:59:21Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Residual Information in Deep Speaker Embedding Architectures [4.619541348328938]
本稿では,最新の高性能DNNアーキテクチャを用いて抽出した6組の話者埋め込みについて解析する。
データセットには46人の話者が同じプロンプトを発信し、プロのスタジオや自宅の環境に記録されている。
その結果、解析された埋め込みの識別力は非常に高いが、分析された全てのアーキテクチャにおいて、残余情報は依然として表現の中に存在することがわかった。
論文 参考訳(メタデータ) (2023-02-06T12:37:57Z) - Who says like a style of Vitamin: Towards Syntax-Aware
DialogueSummarization using Multi-task Learning [2.251583286448503]
個々の話者からの発声と独特の統語構造との関係に焦点をあてる。
話者は、音声プリントのような言語情報を含むことができる独自のテキストスタイルを持つ。
構文認識情報と対話要約の両方をマルチタスクで学習する。
論文 参考訳(メタデータ) (2021-09-29T05:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。