論文の概要: DS@GT at eRisk 2025: From prompts to predictions, benchmarking early depression detection with conversational agent based assessments and temporal attention models
- arxiv url: http://arxiv.org/abs/2507.10958v1
- Date: Tue, 15 Jul 2025 03:40:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.973251
- Title: DS@GT at eRisk 2025: From prompts to predictions, benchmarking early depression detection with conversational agent based assessments and temporal attention models
- Title(参考訳): eRisk 2025のDS@GT: プロンプトから予測へ、会話エージェントに基づく評価と時間的注意モデルによる早期抑うつ検出のベンチマーク
- Authors: Anthony Miyaguchi, David Guecha, Yuwen Chiu, Sidharth Gaur,
- Abstract要約: このワーキングノートは、DS@GTチームの参加を2つのeRisk 2025チャレンジで要約している。
大規模言語モデルを用いた会話抑うつ検出のパイロットタスクでは,多様なLLMがBDI-IIに基づく評価を行うプロンプトエンジニアリング戦略を採用した。
即時設計手法はBDI-II基準に適合し,症状の予測に影響を及ぼす会話的手がかりの分析を可能にした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This Working Note summarizes the participation of the DS@GT team in two eRisk 2025 challenges. For the Pilot Task on conversational depression detection with large language-models (LLMs), we adopted a prompt-engineering strategy in which diverse LLMs conducted BDI-II-based assessments and produced structured JSON outputs. Because ground-truth labels were unavailable, we evaluated cross-model agreement and internal consistency. Our prompt design methodology aligned model outputs with BDI-II criteria and enabled the analysis of conversational cues that influenced the prediction of symptoms. Our best submission, second on the official leaderboard, achieved DCHR = 0.50, ADODL = 0.89, and ASHR = 0.27.
- Abstract(参考訳): このワーキングノートは、DS@GTチームの参加を2つのeRisk 2025チャレンジで要約している。
大規模言語モデル(LLM)を用いた会話抑うつ検出のパイロットタスクでは,多様なLLMがBDI-IIに基づく評価を行い,構造化されたJSON出力を生成するプロンプトエンジニアリング戦略を採用した。
ゼロトラストラベルは利用できないため,クロスモデル合意と内部整合性を評価した。
提案手法はBDI-II基準に適合し,症状の予測に影響を及ぼす会話的手がかりの分析を可能にした。
第2位は、DCHR = 0.50、ADODL = 0.89、ASHR = 0.27 である。
関連論文リスト
- INESC-ID @ eRisk 2025: Exploring Fine-Tuned, Similarity-Based, and Prompt-Based Approaches to Depression Symptom Identification [0.0]
本稿では,eRiskの2025 Task 1: Search for Symptoms of Depressionについて述べる。
一連の文章が与えられた後、参加者はうつ病の症状に対して最大1000の文章を提出する任務を負った。
訓練データは、ある文章が関連があるか否かというラベル付き文から成っていた。
本研究では,基礎モデルの微調整,文類似性,Large Language Model(LLM)プロンプト,アンサンブル技術について検討した。
論文 参考訳(メタデータ) (2025-06-03T14:25:12Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - Making Large Language Models Better Planners with Reasoning-Decision Alignment [70.5381163219608]
マルチモーダリティ強化LLMに基づくエンドツーエンド意思決定モデルを提案する。
ペア化されたCoTと計画結果との推論・決定アライメントの制約を提案する。
提案する大規模言語プランナをRDA-Driverとして推論・決定アライメントする。
論文 参考訳(メタデータ) (2024-08-25T16:43:47Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Towards Quantifiable Dialogue Coherence Evaluation [126.55560816209756]
量的対話コヒーレンス評価(QuantiDCE)は,量的対話コヒーレンス尺度の学習を目的とした新しいフレームワークである。
QuantiDCEには、Multi-Level Ranking (MLR) pre-training (KD) fine-tuning (Multi-Level Ranking)とKD (KD) fine-tuning (KD) という2つの訓練段階が含まれている。
実験結果から,QuantiDCEによりトレーニングされたモデルは,他の最先端の指標に比べて,人間の判断と強い相関関係を示すことが示された。
論文 参考訳(メタデータ) (2021-06-01T14:11:17Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。