論文の概要: Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction
- arxiv url: http://arxiv.org/abs/2605.12987v2
- Date: Sat, 16 May 2026 04:00:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:45.802204
- Title: Leveraging Multimodal Self-Consistency Reasoning in Coding Motivational Interviewing for Alcohol Use Reduction
- Title(参考訳): アルコール使用削減のための符号化モチベーション面接におけるマルチモーダル自己整合推論の活用
- Authors: Guangzeng Han, James G. Murphy, Benjamin O. Ladd, Xiaolei Huang, Brian Borsari,
- Abstract要約: コーディング面接(MI)セッションは、クライアントの振る舞いを理解し、結果を予測するのに不可欠です。
音声モデル(ALM)の最近の進歩は、行動信号をキャプチャしてMIコーディングを自動化する新しい機会を提供する。
本研究は,複数の推論軌道からの予測をキャプチャーし,MIの自動符号化手法を開発することを目的とする。
- 参考スコア(独自算出の注目度): 2.77200120166253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: BACKGROUND: Coding Motivational Interviewing (MI) sessions is essential for understanding client behaviors and predicting outcomes, but it requires substantial time and labor from trained MI professionals. Recent advances in audio-language models (ALMs) offer new opportunities to automate MI coding by capturing multimodal behavioral signals. OBJECTIVE: This study aims to develop an automatic MI coding approach based on ALMs that analyzes raw audio input and integrates predictions from multiple reasoning trajectories using self-consistency to improve coding robustness. METHODS: We experimented with five recorded sessions from de-identified MI audio tapes. We deployed ALMs with four complementary analytic prompts to support utterance-level reasoning: analytic prompting for verbal cues, prosody-aware prompting for acoustic cues, evidence-scoring prompting for quantitative hypothesis testing, and comparative prompting for contrastive reasoning. Three stochastic samples were drawn for each prompt, generating 12 independent reasoning trajectories per utterance. Final predictions were determined by majority voting across all trajectories. RESULTS: Performance was evaluated using accuracy, precision, recall, and macro-F1 scores. The proposed multimodal self-consistency approach achieved 52.56% accuracy, 54.03% precision, 47.45% recall, and a macro-F1 score of 46.40%, exceeding baseline methods. Systematic ablation experiments that removed individual modules consistently degraded performance on the primary metrics. CONCLUSIONS: Multimodal self-consistency outperforms single-pass baseline prompting approaches for MI coding. These findings suggest that incorporating both what clients say and how they say it can support more reliable automatic MI coding.
- Abstract(参考訳): BACKGROUND: コーディングモチベーション面接(MI)セッションは、クライアントの振る舞いを理解し、成果を予測するために不可欠ですが、訓練されたMIプロフェッショナルからはかなりの時間と労力が必要です。
音声言語モデル(ALM)の最近の進歩は、マルチモーダルな動作信号をキャプチャすることでMI符号化を自動化する新たな機会を提供する。
OBJECTIVE: この研究は、生音声入力を分析し、自己整合性を用いて複数の推論軌道からの予測を統合して、符号化堅牢性を改善するALMに基づくMI自動符号化手法を開発することを目的としている。
Methods: 未同定MIオーディオテープから記録した5つのセッションを実験した。
音声レベルの推論を支援するための4つの補完的解析的プロンプトをALMに配置し, 音声的手がかりに対する分析的プロンプト, 音響的手がかりに対する韻律的プロンプト, 定量的仮説テストのためのエビデンス・スコアリング, コントラスト的推論のための比較的プロンプトの4つについて検討した。
3つの確率的サンプルを各プロンプトに描画し、発話毎に12個の独立した推論軌跡を生成した。
最終的な予測は、すべての軌道にまたがる多数決によって決定された。
RESULTS: 精度,精度,リコール,マクロF1スコアを用いて評価した。
提案されたマルチモーダル自己整合性アプローチは52.56%の精度、54.03%の精度、47.45%のリコール、46.40%のマクロF1スコアがベースライン法を上回った。
個々のモジュールを除去するシステム的アブレーション実験は、主要なメトリクスのパフォーマンスを継続的に低下させた。
CONCLUSIONS: マルチモーダルな自己整合性は、MI符号化のアプローチを促す単一パスベースラインよりも優れている。
これらの結果は、クライアントが何を言っているか、どのように言っているかの両方を取り入れることで、より信頼性の高いMIコーディングをサポートできることを示唆している。
関連論文リスト
- JASTIN: Aligning LLMs for Zero-Shot Audio and Speech Evaluation via Natural Language Instructions [66.71387365429062]
JASTINは命令駆動型オーディオ評価フレームワークである。
自己指示型推論タスクとして音声アセスメントを定式化する。
音声、音、音楽、ドメイン外評価タスクでMLLMを一貫して上回ります。
論文 参考訳(メタデータ) (2026-05-06T05:18:42Z) - Membership Inference Attacks against Large Audio Language Models [50.84901010528239]
大規模音声言語モデル(LALM)のMIA評価について述べる。
テキスト,スペクトル,韻律的特徴に基づくマルチモーダルブラインドベースラインを用いて,一般的な音声データセットがほぼ完璧な列車/テスト分離性を示すことを示す。
以上の結果から, LALM検査の基準基準が確立された。
論文 参考訳(メタデータ) (2026-03-30T12:45:28Z) - dVoting: Fast Voting for dLLMs [71.572316901001]
拡散大言語モデル(dLLMs)は自己回帰モデリングを超えた新しいパラダイムである。
dLLMは任意の位置で任意のトークンを並列に生成できるため、並列テストタイムスケーリングには大きな可能性がある。
トレーニングなしで推論能力を高める高速投票手法であるdVotingを導入する。
論文 参考訳(メタデータ) (2026-02-12T16:35:05Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs [24.403284945948272]
AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。
AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
論文 参考訳(メタデータ) (2025-05-27T16:17:15Z) - SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。
我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。
これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文 参考訳(メタデータ) (2025-02-24T07:15:05Z) - Integrative Decoding: Improve Factuality via Implicit Self-consistency [45.27124252002816]
自己整合性に基づくアプローチは,大規模言語モデルの現実的精度向上に極めて有効である。
我々は、オープンな生成タスクにおける自己整合性の可能性を解き放つために、統合的復号化(ID)を提案する。
論文 参考訳(メタデータ) (2024-10-02T13:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。