論文の概要: Towards a Method for Synthetic Generation of PWA Transcripts
- arxiv url: http://arxiv.org/abs/2510.24817v1
- Date: Tue, 28 Oct 2025 10:06:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-30 15:50:44.596912
- Title: Towards a Method for Synthetic Generation of PWA Transcripts
- Title(参考訳): PWAトランスクリプトの合成法に向けて
- Authors: Jason M. Pittman, Anton Phillips Jr., Yesenia Medina-Santos, Brielle C. Stark,
- Abstract要約: 本研究では,AphasiaBank Cat Rescue 画像記述タスクの合成文字を生成する2つの方法を構築し,検証する。
これらの手法は, 単語ドロップ, フィラー挿入, パラファシア置換によって, 4つの重度レベル(Mild, Moderate, Severe, Very Severe)にまたがる書き起こしを生成する。
ミストラル7bは,失語症で観察される言語学的劣化の重要な側面を最もよく捉えている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In aphasia research, Speech-Language Pathologists (SLPs) devote extensive time to manually coding speech samples using Correct Information Units (CIUs), a measure of how informative an individual sample of speech is. Developing automated systems to recognize aphasic language is limited by data scarcity. For example, only about 600 transcripts are available in AphasiaBank yet billions of tokens are used to train large language models (LLMs). In the broader field of machine learning (ML), researchers increasingly turn to synthetic data when such are sparse. Therefore, this study constructs and validates two methods to generate synthetic transcripts of the AphasiaBank Cat Rescue picture description task. One method leverages a procedural programming approach while the second uses Mistral 7b Instruct and Llama 3.1 8b Instruct LLMs. The methods generate transcripts across four severity levels (Mild, Moderate, Severe, Very Severe) through word dropping, filler insertion, and paraphasia substitution. Overall, we found, compared to human-elicited transcripts, Mistral 7b Instruct best captures key aspects of linguistic degradation observed in aphasia, showing realistic directional changes in NDW, word count, and word length amongst the synthetic generation methods. Based on the results, future work should plan to create a larger dataset, fine-tune models for better aphasic representation, and have SLPs assess the realism and usefulness of the synthetic transcripts.
- Abstract(参考訳): 失語症研究において、音声言語病理学者(SLPs)は、個々の音声のサンプルがいかに情報的であるかを示す指標であるCorrect Information Units (CIUs)を用いて、手動で音声サンプルをコーディングすることに多大な時間を割いた。
アファシック言語を認識する自動化システムの開発は、データの不足によって制限される。
例えば、AphasiaBankでは600の転写文字しか利用できないが、大規模な言語モデル(LLM)のトレーニングには数十億のトークンが使用されている。
機械学習(ML)の幅広い分野において、研究者たちは、それがスパースであるときには、ますます合成データに目を向けるようになっている。
そこで本研究では,AphasiaBank Cat Rescue 画像記述タスクの合成写本を生成する2つの方法を構築し,検証した。
1つの方法は手続き型プログラミングアプローチを利用し、2つ目はMistral 7b InstructとLlama 3.1 8b Instruct LLMを使用する。
これらの手法は, 単語ドロップ, フィラー挿入, パラファシア置換によって, 4つの重度レベル(Mild, Moderate, Severe, Very Severe)にまたがる書き起こしを生成する。
以上の結果から, 失語症における言語学的劣化の重要な側面を最もよく捉え, 合成生成法におけるNDW, 単語数, 単語長の現実的な方向変化を示した。
この結果に基づき、将来の研究は、より大規模なデータセット、より優れた失語症表現のための微調整モデルを作成し、SLPに合成写本の現実性と有用性を評価することを計画している。
関連論文リスト
- Generating Completions for Fragmented Broca's Aphasic Sentences Using Large Language Models [1.2671697405714075]
ブロカ失語症 (Broca's aphasia) は、非流動的で、強固で、断片的な発声を特徴とする失語の一種である。
我々は,Brocaの失語文を完全化するためのシーケンス・ツー・シーケンス・Large Language Models (LLM) を開発した。
論文 参考訳(メタデータ) (2024-12-23T15:54:15Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Recent Advances in Speech Language Models: A Survey [45.968078636811356]
音声言語モデル(SpeechLMs)は、テキストから変換することなく音声を生成するエンドツーエンドモデルである。
本稿では,近年のSpeechLM構築手法について概観する。
論文 参考訳(メタデータ) (2024-10-01T21:48:12Z) - SynthesizRR: Generating Diverse Datasets with Retrieval Augmentation [55.2480439325792]
トピック分類,感情分析,トーン検出,ユーモアの6つのデータセットの合成について検討した。
その結果,SynthesizRRは語彙や意味の多様性,人文との類似性,蒸留性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-16T12:22:41Z) - LeTI: Learning to Generate from Textual Interactions [60.425769582343506]
本稿では,テキストインタラクション(LETI)から学習するLMの可能性を,バイナリラベルによる正当性をチェックするだけでなく,テキストフィードバックを通じて出力中のエラーをピンポイントし,説明する。
私たちの焦点はコード生成タスクであり、そこではモデルが自然言語命令に基づいてコードを生成する。
LETIは、目的のLMを用いて、自然言語命令、LM生成プログラム、テキストフィードバックの結合に基づいて、モデルを反復的に微調整する。
論文 参考訳(メタデータ) (2023-05-17T15:53:31Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。