論文の概要: Learning to Mediate Disparities Towards Pragmatic Communication
- arxiv url: http://arxiv.org/abs/2203.13685v1
- Date: Fri, 25 Mar 2022 14:46:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-28 11:59:17.276148
- Title: Learning to Mediate Disparities Towards Pragmatic Communication
- Title(参考訳): 実践的コミュニケーションへの格差を媒介する学習
- Authors: Yuwei Bao, Sayan Ghosh, Joyce Chai
- Abstract要約: 言語コミュニケーションに類似した能力を持つAIエージェントを構築するためのフレームワークとして,Pragmatic Rational Speaker (PRS)を提案する。
PRSは、作業メモリに軽量の差分調整層を追加することにより、話者-リスナーの差分を学習し、それに応じて音声を調整しようとする。
長期メモリを修正することで、PSSは様々なタイプのリスナを学習し適応するためにのみ、動作メモリを更新する。
- 参考スコア(独自算出の注目度): 9.321336642983875
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human communication is a collaborative process. Speakers, on top of conveying
their own intent, adjust the content and language expressions by taking the
listeners into account, including their knowledge background, personalities,
and physical capabilities. Towards building AI agents with similar abilities in
language communication, we propose Pragmatic Rational Speaker (PRS), a
framework extending Rational Speech Act (RSA). The PRS attempts to learn the
speaker-listener disparity and adjust the speech accordingly, by adding a
light-weighted disparity adjustment layer into working memory on top of
speaker's long-term memory system. By fixing the long-term memory, the PRS only
needs to update its working memory to learn and adapt to different types of
listeners. To validate our framework, we create a dataset that simulates
different types of speaker-listener disparities in the context of referential
games. Our empirical results demonstrate that the PRS is able to shift its
output towards the language that listener are able to understand, significantly
improve the collaborative task outcome.
- Abstract(参考訳): 人間のコミュニケーションは協調的なプロセスです。
話者は、自身の意図を伝えることに加えて、知識の背景、個性、身体的能力など、リスナーを考慮に入れて、コンテンツと言語表現を調整する。
言語コミュニケーションに類似した能力を持つAIエージェントの構築を目指して,Rational Speech Act(RSA)を拡張するフレームワークであるPragmatic Rational Speaker(PRS)を提案する。
prsは、話者の長期記憶システム上に作業メモリに軽量な不均等調整層を付加することにより、話者選好不等を学習し、それに応じて音声を調整する。
長期メモリを修正することで、PSSは様々なタイプのリスナを学習し適応するためにのみ、動作メモリを更新する。
フレームワークを検証するために、参照ゲームにおける様々なタイプの話者-リスナー格差をシミュレートするデータセットを作成する。
我々の経験的結果は、PSSが、リスナーが理解し、協調作業の結果を大幅に改善できる言語にアウトプットをシフトできることを示します。
関連論文リスト
- Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Effect of Attention and Self-Supervised Speech Embeddings on
Non-Semantic Speech Tasks [3.570593982494095]
我々は、より現実的な認識課題として、音声感情理解を考察する。
我々は,ComParEの多言語話者の豊富なデータセットと,その感情の「感情共有」や知覚の多言語回帰ターゲットを利用する。
以上の結果から,HuBERT-Largeの自己アテンションに基づく軽量シーケンスモデルでは,報告されたベースラインよりも4.6%向上していることがわかった。
論文 参考訳(メタデータ) (2023-08-28T07:11:27Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - ACE-VC: Adaptive and Controllable Voice Conversion using Explicitly
Disentangled Self-supervised Speech Representations [12.20522794248598]
自己教師付き学習で訓練された音声表現を用いたゼロショット音声変換法を提案する。
我々は,発話を言語内容,話者特性,発話スタイルなどの特徴に分解するマルチタスクモデルを開発した。
次に,その表現から音声信号を効果的に再構成できるピッチと時間予測器を備えた合成モデルを開発する。
論文 参考訳(メタデータ) (2023-02-16T08:10:41Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Know your audience: specializing grounded language models with listener
subtraction [20.857795779760917]
我々はDixitからインスピレーションを得て、マルチエージェント画像参照ゲームを定式化する。
この対照的なマルチエージェント設定において,CLIPビジョンエンコーダと大規模言語モデル間の注意ベースのアダプタを微調整することで,文脈依存の自然言語特殊化がもたらされることを示す。
論文 参考訳(メタデータ) (2022-06-16T17:52:08Z) - Curriculum Learning for Goal-Oriented Semantic Communications with a
Common Language [60.85719227557608]
話者とリスナーが協調して一連のタスクを実行することを可能にするために,総合目標指向のセマンティックコミュニケーションフレームワークを提案する。
話者とリスナーのセマンティックコミュニケーションを実現するために,階層的信念に基づく共通言語を提案する。
最適化問題は、イベントの完全かつ抽象的な記述を決定するために定義される。
論文 参考訳(メタデータ) (2022-04-21T22:36:06Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - Self-play for Data Efficient Language Acquisition [20.86261546611472]
学習エージェントにおける言語習得の効率と品質を向上させるために,コミュニケーションの対称性を利用する。
直接監督の代わりにセルフプレイを使用することで、エージェントが役割間で知識を伝達できることが示される。
論文 参考訳(メタデータ) (2020-10-10T02:09:19Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。