論文の概要: Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements
- arxiv url: http://arxiv.org/abs/2506.09707v1
- Date: Wed, 11 Jun 2025 13:21:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:02.995809
- Title: Fine-Tuning Large Audio-Language Models with LoRA for Precise Temporal Localization of Prolonged Exposure Therapy Elements
- Title(参考訳): 長期露光療法要素の短時間局所化のためのLoRAを用いた微細調整型大規模オーディオ言語モデル
- Authors: Suhas BN, Andrew M. Sherrill, Jyoti Alaparthi, Dominik Mattioli, Rosa I. Arriaga, Chris W. Wiese, Saeed Abdullah,
- Abstract要約: 本稿では,セッション音声やテキストから鍵PEの忠実度要素を自動的時間的局所化する手法を提案する。
我々のアプローチは、Low-Rank Adaptation (LoRA) を用いて、学習済みの大規模なオーディオ言語モデル Qwen2-Audio を微調整し、30秒間の音声書き起こし入力を処理する。
この研究は、PE療法における忠実度追跡のためのスケーラブルなフレームワークを導入し、臨床医のトレーニング、監督、品質保証をサポートする可能性がある。
- 参考スコア(独自算出の注目度): 10.69146275329558
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prolonged Exposure (PE) therapy is an effective treatment for post-traumatic stress disorder (PTSD), but evaluating therapist fidelity remains labor-intensive due to the need for manual review of session recordings. We present a method for the automatic temporal localization of key PE fidelity elements -- identifying their start and stop times -- directly from session audio and transcripts. Our approach fine-tunes a large pre-trained audio-language model, Qwen2-Audio, using Low-Rank Adaptation (LoRA) to process focused 30-second windows of audio-transcript input. Fidelity labels for three core protocol phases -- therapist orientation (P1), imaginal exposure (P2), and post-imaginal processing (P3) -- are generated via LLM-based prompting and verified by trained raters. The model is trained to predict normalized boundary offsets using soft supervision guided by task-specific prompts. On a dataset of 313 real PE sessions, our best configuration (LoRA rank 8, 30s windows) achieves a mean absolute error (MAE) of 5.3 seconds across tasks. We further analyze the effects of window size and LoRA rank, highlighting the importance of context granularity and model adaptation. This work introduces a scalable framework for fidelity tracking in PE therapy, with potential to support clinician training, supervision, and quality assurance.
- Abstract(参考訳): Prolonged Exposure (PE) 療法は外傷後ストレス障害 (PTSD) の治療として有効であるが, 手動によるセッション記録のレビューの必要性から, セラピストの忠実度の評価は熱心である。
本稿では,セッション音声やテキストから,鍵PE忠実度要素(開始時刻と停止時刻を識別する)の自動時間的局所化手法を提案する。
我々のアプローチは、Low-Rank Adaptation (LoRA) を用いて、学習済みの大規模なオーディオ言語モデル Qwen2-Audio を微調整し、30秒間の音声書き起こし入力を処理する。
セラピスト指向(P1)、仮想露光(P2)、後処理(P3)の3つのコアプロトコルフェーズの忠実度ラベルは、LLMベースのプロンプトによって生成され、トレーニングされたラッカーによって検証される。
このモデルは、タスク固有のプロンプトによって導かれるソフトインスペクションを用いて、正規化された境界オフセットを予測するために訓練される。
313の実際のPEセッションのデータセットでは、最高の構成(LoRAランキング8、30sウィンドウ)がタスク間で平均絶対誤差(MAE)を達成する。
さらに、ウィンドウサイズとLoRAランクの影響を分析し、コンテキストの粒度とモデル適応の重要性を強調した。
この研究は、PE療法における忠実度追跡のためのスケーラブルなフレームワークを導入し、臨床医のトレーニング、監督、品質保証をサポートする可能性がある。
関連論文リスト
- Cog-TiPRO: Iterative Prompt Refinement with LLMs to Detect Cognitive Decline via Longitudinal Voice Assistant Commands [8.516584356273825]
認知低下の早期発見は、神経変性疾患の進行を遅らせる介入を可能にするために重要である。
本研究は音声コマンドの音声パターンの経時的解析により認知低下を検出する非侵襲的ツールとして音声アシスタントシステム(VAS)について検討する。
論文 参考訳(メタデータ) (2025-05-22T05:40:12Z) - Mask-DPO: Generalizable Fine-grained Factuality Alignment of LLMs [56.74916151916208]
大型言語モデル(LLM)は、様々なドメインでAIアシスタントとして機能する際、幻覚(不信または非感覚的な情報)を示す。
学習中に必然的にノイズを発生させる応答レベルの嗜好学習を行う従来の事実アライメント手法。
本稿では,Mask-DPO (Direct Preference Optimization, DPO) に基づくファクトリティアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T18:20:24Z) - Adversarial Prompt Distillation for Vision-Language Models [63.24270920122456]
Adversarial Prompt Tuning (APT) は、迅速なチューニングの過程において、相手のトレーニングを適用する。
APDは、マルチモーダルな知識伝達と統合してAPTを強化するバイモーダルな知識蒸留フレームワークである。
複数のベンチマークデータセットに対する大規模な実験は、現在最先端のAPT法よりもAPD法の方が優れていることを示す。
論文 参考訳(メタデータ) (2024-11-22T03:02:13Z) - Wireless Earphone-based Real-Time Monitoring of Breathing Exercises: A Deep Learning Approach [0.10923877073891444]
本稿では,在宅治療における患者のコンプライアンスを評価できる枠組みを提案する。
提案システムは,呼吸相と流路を高精度にリアルタイムに検出する。
その結果, 実時間呼吸路と位相検出にコモディティイヤホンを使用することの可能性が示された。
論文 参考訳(メタデータ) (2024-04-16T06:37:19Z) - Aligned Unsupervised Pretraining of Object Detectors with Self-training [41.03780087924593]
物体検出器の教師なし事前訓練は、近年、物体検出器訓練の重要な要素となっている。
本稿では、この問題を緩和し、3つの単純かつ重要な要素からなるフレームワークを提案する。
当社の戦略は,スクラッチ(背骨を含む)からの事前トレーニングも可能であり,COCOのような複雑な画像にも適用可能であることを示す。
論文 参考訳(メタデータ) (2023-07-28T17:46:00Z) - Phonetic and Prosody-aware Self-supervised Learning Approach for
Non-native Fluency Scoring [13.817385516193445]
音声と韻律の特徴を解析することにより、音声の流速/拡散を評価することができる。
ディープ・ニューラル・ネットワークは一般に、流感に関連した特徴を人間のスコアにマッピングするように訓練されている。
本稿では,流音評価のための音声と韻律の認識を考慮した自己教師付き学習(SSL)手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T05:39:41Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - Jointly Learning Visual and Auditory Speech Representations from Raw
Data [108.68531445641769]
RAVEnは視覚と聴覚の表現を協調的に学習する自己教師型マルチモーダルアプローチである。
我々の設計は、ビデオとオーディオの固有の違いによって駆動される非対称なw.r.t.である。
RAVEnは視覚音声認識における全自己指導手法を超越している。
論文 参考訳(メタデータ) (2022-12-12T21:04:06Z) - SupervisorBot: NLP-Annotated Real-Time Recommendations of Psychotherapy
Treatment Strategies with Deep Reinforcement Learning [13.173307471333619]
本稿では,心理療法セッション中のセラピストに対して,リアルタイムで治療戦略を提案するレコメンデーションシステムを提案する。
本システムでは,評価項目の深層埋め込みと患者が話している現在文との類似度スコアを計算し,治療結果を予測するターンレベル評価機構を用いる。
論文 参考訳(メタデータ) (2022-08-27T19:22:53Z) - Phase Aware Speech Enhancement using Realisation of Complex-valued LSTM [4.047123840446361]
本稿では、複素比マスクを推定するために、複素数値短期記憶(RTM)ネットワークの実現を提案する。
提案したRTMは複素数値列を複素算術を用いて処理するように設計されている。
実価値に基づくマスキング手法と比較して,提案手法は,音声品質の知覚的評価など,いくつかの客観的尺度で改善されている。
論文 参考訳(メタデータ) (2020-10-27T08:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。