論文の概要: When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews
- arxiv url: http://arxiv.org/abs/2603.24651v1
- Date: Wed, 25 Mar 2026 17:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:47.914895
- Title: When Consistency Becomes Bias: Interviewer Effects in Semi-Structured Clinical Interviews
- Title(参考訳): 一貫性がバイアスになるとき--半構造化臨床面接におけるインタビュアーの効果
- Authors: Hasindri Watawana, Sergio Burdisso, Diego A. Moreno-Galván, Fernando Sánchez-Vega, A. Pastor López-Monroy, Petr Motlicek, Esaú Villatoro-Tello,
- Abstract要約: 我々は3つのデータセット、ANDROIDS、DAIC-WOZ、E-DAICを分析した。
半構造化インタビューにおけるインタビュアープロンプトからの体系的バイアスを同定する。
本研究は, クロスデータセット, アーキテクチャ非依存のバイアスに着目し, 時間と話者による決定証拠のローカライズを行う分析の必要性を強調した。
- 参考スコア(独自算出の注目度): 40.15765126212381
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic depression detection from doctor-patient conversations has gained momentum thanks to the availability of public corpora and advances in language modeling. However, interpretability remains limited: strong performance is often reported without revealing what drives predictions. We analyze three datasets: ANDROIDS, DAIC-WOZ, E-DAIC and identify a systematic bias from interviewer prompts in semi-structured interviews. Models trained on interviewer turns exploit fixed prompts and positions to distinguish depressed from control subjects, often achieving high classification scores without using participant language. Restricting models to participant utterances distributes decision evidence more broadly and reflects genuine linguistic cues. While semi-structured protocols ensure consistency, including interviewer prompts inflates performance by leveraging script artifacts. Our results highlight a cross-dataset, architecture-agnostic bias and emphasize the need for analyses that localize decision evidence by time and speaker to ensure models learn from participants' language.
- Abstract(参考訳): 公衆コーパスの利用可能化と言語モデリングの進歩により、医師と患者の会話からの自動抑うつ検出が勢いを増している。
しかし、解釈可能性はまだ限られている。強い性能は予測を駆動する要因を明かさずに報告されることが多い。
ANDROIDS, DAIC-WOZ, E-DAICの3つのデータセットを分析し, 半構造化面接におけるインタビュアープロンプトからの系統的バイアスを同定する。
インタビュアーで訓練されたモデルは、固定されたプロンプトと位置を利用して、制御対象からうつ病を区別し、しばしば参加者言語を使わずに高い分類スコアを得る。
参加者の発話を制限するモデルは、決定的証拠をより広く配布し、真の言語的手がかりを反映する。
半構造化されたプロトコルは一貫性を保証するが、インタビュアーはスクリプトアーティファクトを活用することでパフォーマンスを向上させる。
本研究は,モデルが参加者の言語から学べるように,時間と話者による決定証拠のローカライズを行う分析の必要性を強調した。
関連論文リスト
- Multilingual Self-Taught Faithfulness Evaluators [11.200203292660758]
合成多言語要約データからのみ学習するフレームワークである。
我々のフレームワークは、最先端の英語評価器や機械翻訳に基づくアプローチなど、既存のベースラインよりも改善されている。
論文 参考訳(メタデータ) (2025-07-28T12:01:59Z) - Listen and Speak Fairly: A Study on Semantic Gender Bias in Speech Integrated Large Language Models [38.64792118903994]
SILLMのジェンダーバイアスを4つの意味的タスクで評価した。
分析の結果, バイアスレベルは言語に依存し, 評価方法によって異なることが明らかとなった。
論文 参考訳(メタデータ) (2024-07-09T15:35:43Z) - Cognitive Insights Across Languages: Enhancing Multimodal Interview Analysis [0.6062751776009752]
軽度認知障害と認知スコアを予測できるマルチモーダルモデルを提案する。
提案モデルでは,インタビューで使用した言語を書き起こし,区別する能力を示す。
提案手法では,提案手法から得られた様々な特徴を詳細に検討する。
論文 参考訳(メタデータ) (2024-06-11T17:59:31Z) - DAIC-WOZ: On the Validity of Using the Therapist's prompts in Automatic Depression Detection from Clinical Interviews [39.08557916089242]
近年の研究では、インタビュアーのプロンプトをモデルに組み込んだ場合の性能向上が報告されている。
インタビュアーのプロンプトを用いたモデルでは,過去のメンタルヘルス問題に関する質問が質問されるインタビューの特定の領域に焦点を絞ることが分かる。
故意に利用することで0.90F1のスコアを得ることができ、このデータセットで報告された最も高い結果は、テキスト情報のみを用いてである。
論文 参考訳(メタデータ) (2024-04-22T09:07:50Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Leveraging Multimodal Behavioral Analytics for Automated Job Interview
Performance Assessment and Feedback [0.5872014229110213]
行動的手がかりは人間のコミュニケーションや認知に重要な役割を果たす。
本稿では,インタビューシナリオにおける候補の分析を行うマルチモーダル分析フレームワークを提案する。
我々はこれらのマルチモーダルデータソースを用いて複合表現を構築し、機械学習分類器を訓練してクラスラベルを予測する。
論文 参考訳(メタデータ) (2020-06-14T14:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。