論文の概要: A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks
- arxiv url: http://arxiv.org/abs/2605.23977v1
- Date: Wed, 13 May 2026 17:32:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:42.994888
- Title: A Multi-Probe Audit of Clinical-Interview Depression Detection Benchmarks
- Title(参考訳): 臨床対話型抑うつ検出ベンチマークの多面的評価
- Authors: Takehiro Ishikawa, Jon Duke,
- Abstract要約: 本稿では,4つの相補的プローブを用いた臨床・臨床・臨床・臨床のうつ病検出におけるベンチマーク評価を行った。
E-DAICを厳密な主観的分離型離脱1-サブジェクトアウト・クロスバリデーションの下で再評価する。
E-DAICのオフィシャルスプリットが96モデル構成を網羅することで、詳細なリーダーボードランキングをサポートするかどうかを検証する。
- 参考スコア(独自算出の注目度): 0.12891210250935145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper audits benchmark evaluation in clinical-interview depression detection through four complementary probes across DAIC/E-DAIC, CMDC, ANDROIDS, MODMA, and PDCH. First, we re-evaluate E-DAIC under strict subject-disjoint leave-one-subject-out cross-validation. A lightweight hybrid text-plus-LLM-score model reaches macro-F1 = 0.723 - the highest reported under this protocol, to our knowledge - providing a conservative out-of-fold reference point that does not depend on the privileged official holdout. Second, we test whether the E-DAIC official split supports fine-grained leaderboard rankings by sweeping 96 model configurations across modality bundles, pooling strategies, and learners. Development-side cross-validation and official-test rankings align only moderately: the best cross-validation configuration ranks twentieth on the official test, the official-test winner ranks forty-first by cross-validation, top-3 overlap is zero, and the apparent winner is rank-1 in only 32.3% of subject bootstraps. Third, we externally validate strong public CMDC and ANDROIDS baselines that achieve near-ceiling in-domain performance. Zero-shot transfer to external corpora is substantially weaker. Finally, we stress-test E-DAIC text and audio models using paired symptom-dense versus symptom-light interview slices defined by an SRDS-based annotator. Text scores rise sharply on symptom-dense slices, whereas audio scores remain nearly flat; the text-minus-audio gap is positive across all five seeds.
- Abstract(参考訳): 本稿では, DAIC/E-DAIC, CMDC, ANDROIDS, MODMA, PDCHの4つの相補的プローブを用いた臨床対面うつ病検出のベンチマーク評価を行った。
まず,E-DAICを厳密な主観的分離・離脱・単射的クロスバリデーションの下で再評価する。
軽量なハイブリッドテキスト+LLMスコアモデルがマクロF1 = 0.723に達します。
第二に、E-DAICのオフィシャルスプリットが、モダリティバンドル、プーリング戦略、学習者間で96のモデル構成を網羅することで、リーダーボードの微粒化をサポートするかどうかをテストする。
開発側のクロスバリデーションとオフィシャルテストのランキングは、公式テストで20位、オフィシャルテストの勝者はクロスバリデーションで44位、トップ3のオーバーラップはゼロ、明らかな勝者は32.3%の被験者ブートストラップでランク1である。
第3に、ドメイン内の性能をほぼ低下させる強力な公共CMDCと ANDROIDS ベースラインを外部的に検証する。
外部コーパスへのゼロショット転送は、かなり弱い。
最後に,SRDSをベースとしたアノテータで定義したシンプレム・デンスとシンプレム・ライト・インタビュースライスを用いて,E-DAICテキストと音声モデルをストレステストする。
テキストスコアは症状の少ないスライスで急上昇する一方、オーディオスコアはほぼ平らであり、テキスト-マイナス-オーディオギャップは5つの種で正である。
関連論文リスト
- ScientistOne: Towards Human-Level Autonomous Research via Chain-of-Evidence [57.37494162084001]
チェーン・オブ・エビデンス(Chain-of-Evidence, CoE)は、すべてのクレームがエビデンス・ソースにトレース可能であることを要求する検証可能なフレームワークである。
CoE Auditはポストホック監査であり、スコア検証、仕様違反、参照検証、メソッドコードアライメントという4つの整合性チェックが全システムに均一に適用される。
論文 参考訳(メタデータ) (2026-05-25T21:30:27Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Deterministic Fuzzy Triage for Legal Compliance Classification and Evidence Retrieval [0.0]
法律チームはますます、大量の契約上の証拠をトリアージするために機械学習を使用している。
多くのモデルは不透明で非決定論的であり、HIPAAやNERC-CIPのようなフレームワークと整合するのは難しい。
決定論的双対エンコーダと透明なファジィトリアージバンドに基づく簡単な再現可能な代替法について検討する。
論文 参考訳(メタデータ) (2026-03-08T00:31:34Z) - CLUE: Non-parametric Verification from Experience via Hidden-State Clustering [64.50919789875233]
隠れアクティベーションの軌跡内の幾何的に分離可能なシグネチャとして解の正しさが符号化されていることを示す。
ClUE は LLM-as-a-judge ベースラインを一貫して上回り、候補者の再選において近代的な信頼に基づく手法に適合または超えている。
論文 参考訳(メタデータ) (2025-10-02T02:14:33Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - End-to-End and Self-Supervised Learning for ComParE 2022 Stuttering
Sub-Challenge [7.42741711946564]
我々は、ACM Multimedia 2022 ComParE Challengeに参加するために、自己指導型で訓練されたエンドツーエンドおよび音声埋め込みベースのシステムを提案する。
我々は、KSoFデータセット上での散乱検出のために、事前学習したWav2Vec2.0モデルからの埋め込みを利用する。
提案する自己教師型SDシステムは,それぞれ36.9%,テストセットで41.0%のUARを実現する。
論文 参考訳(メタデータ) (2022-07-20T11:57:31Z) - Low-complexity deep learning frameworks for acoustic scene
classification [64.22762153453175]
音響シーン分類(ASC)のための低複雑さ深層学習フレームワークを提案する。
提案するフレームワークは、フロントエンドのスペクトログラム抽出、オンラインデータ拡張、バックエンドの分類、予測される確率の後期融合の4つの主要なステップに分けることができる。
DCASE 2022 Task 1 Development データセットで実施した実験は,低複雑さの要求を十分に満たし,最も高い分類精度を 60.1% で達成した。
論文 参考訳(メタデータ) (2022-06-13T11:41:39Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。