論文の概要: Speaker Information Can Guide Models to Better Inductive Biases: A Case
Study On Predicting Code-Switching
- arxiv url: http://arxiv.org/abs/2203.08979v1
- Date: Wed, 16 Mar 2022 22:56:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 06:33:12.910681
- Title: Speaker Information Can Guide Models to Better Inductive Biases: A Case
Study On Predicting Code-Switching
- Title(参考訳): 話者情報により誘導的バイアスを改善するモデル:コードスイッチング予測のケーススタディ
- Authors: Alissa Ostapenko, Shuly Wintner, Melinda Fricke, Yulia Tsvetkov
- Abstract要約: 社会言語学的に座屈した話者特徴を事前のプロンプトとして付加すると精度が著しく向上することを示す。
私たちは、コードスイッチングのためのニューラルモデルに話者特性を取り入れた最初の人です。
- 参考スコア(独自算出の注目度): 27.68274308680201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural language processing (NLP) models trained on people-generated data can
be unreliable because, without any constraints, they can learn from spurious
correlations that are not relevant to the task. We hypothesize that enriching
models with speaker information in a controlled, educated way can guide them to
pick up on relevant inductive biases. For the speaker-driven task of predicting
code-switching points in English--Spanish bilingual dialogues, we show that
adding sociolinguistically-grounded speaker features as prepended prompts
significantly improves accuracy. We find that by adding influential phrases to
the input, speaker-informed models learn useful and explainable linguistic
information. To our knowledge, we are the first to incorporate speaker
characteristics in a neural model for code-switching, and more generally, take
a step towards developing transparent, personalized models that use speaker
information in a controlled way.
- Abstract(参考訳): 人によって生成されたデータでトレーニングされた自然言語処理(nlp)モデルは、制約なく、タスクとは無関係な散発的な相関から学ぶことができるため、信頼できない可能性がある。
コントロールされた教育を受けた方法で話者情報を持つモデルを豊かにすることで、関連する帰納的バイアスに対処できると仮定する。
英語とスペイン語のバイリンガル対話におけるコードスイッチングポイントを予測するための話者主導タスクにおいて,事前のプロンプトとして社会言語学的に接地した話者機能を加えることで,精度が著しく向上することを示す。
入力に影響力のあるフレーズを追加することで、話者インフォームドモデルは有用で説明可能な言語情報を学ぶことができる。
私たちの知る限りでは、コード切り換えのためのニューラルモデルに最初に話者特性を取り入れ、より一般的には、話者情報を制御された方法で使用する透明でパーソナライズされたモデルを開発するための一歩を踏み出します。
関連論文リスト
- Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Improving Speaker Diarization using Semantic Information: Joint Pairwise
Constraints Propagation [53.01238689626378]
本稿では,話者ダイアリゼーションシステムにおける意味情報を活用する新しい手法を提案する。
音声言語理解モジュールを導入し、話者関連意味情報を抽出する。
本稿では,これらの制約を話者ダイアリゼーションパイプラインに統合する新しい枠組みを提案する。
論文 参考訳(メタデータ) (2023-09-19T09:13:30Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Speaking the Language of Your Listener: Audience-Aware Adaptation via
Plug-and-Play Theory of Mind [4.052000839878213]
我々は、より限られた視覚的・言語的経験を持つ、知識のある話者と聞き手の間の視覚的接地型参照ゲームをモデル化する。
我々は,提案する話者に対して,聴取者の視点から予測された発話の有効性をモニタするシミュレーションモジュールを用いて,参照表現を適応する能力を与える。
論文 参考訳(メタデータ) (2023-05-31T15:17:28Z) - Joining the Conversation: Towards Language Acquisition for Ad Hoc Team
Play [1.370633147306388]
本稿では,アドホックチームプレイ問題の特定の形態として,協調言語獲得の問題を提案し,考察する。
本稿では, 話者の意図と聞き手の意味を, 言語利用者チーム間のコミュニケーションの観察から推定する確率論的モデルを提案する。
論文 参考訳(メタデータ) (2023-05-20T16:59:27Z) - Self-supervised Fine-tuning for Improved Content Representations by
Speaker-invariant Clustering [78.2927924732142]
話者不変クラスタリング(Spin)を自己教師付き学習手法として提案する。
Spinは、単一のGPU上で45分間の微調整で、スピーカー情報を切り離し、コンテンツ表現を保存する。
論文 参考訳(メタデータ) (2023-05-18T15:59:36Z) - Data-augmented cross-lingual synthesis in a teacher-student framework [3.2548794659022398]
言語間合成は、話者が他の言語で流動的な合成音声を生成させるタスクである。
これまでの研究では、多くのモデルでは一般化能力が不十分であることが示されている。
本稿では,教師/学生のパラダイムを言語間合成に適用することを提案する。
論文 参考訳(メタデータ) (2022-03-31T20:01:32Z) - Wav-BERT: Cooperative Acoustic and Linguistic Representation Learning
for Low-Resource Speech Recognition [159.9312272042253]
Wav-BERTは、協調的な音響および言語表現学習法である。
我々は、事前訓練された音響モデル(wav2vec 2.0)と言語モデル(BERT)をエンドツーエンドのトレーニング可能なフレームワークに統合する。
論文 参考訳(メタデータ) (2021-09-19T16:39:22Z) - Improving on-device speaker verification using federated learning with
privacy [5.321241042620525]
話者特性に関する情報は、話者認識精度を向上させる側情報として有用である。
本稿では,プライバシ保護学習が話者認証システムをどのように改善するかを検討する。
論文 参考訳(メタデータ) (2020-08-06T13:37:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。