論文の概要: PsychePass: Calibrating LLM Therapeutic Competence via Trajectory-Anchored Tournaments
- arxiv url: http://arxiv.org/abs/2601.20330v1
- Date: Wed, 28 Jan 2026 07:48:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.821349
- Title: PsychePass: Calibrating LLM Therapeutic Competence via Trajectory-Anchored Tournaments
- Title(参考訳): サイコパス: トラジェクティブ・アンコールド・トーナメントによるLLM治療能力の校正
- Authors: Zhuang Chen, Dazhen Wan, Zhangkai Zheng, Guanqun Bi, Xiyao Xiao, Binghang Li, Minlie Huang,
- Abstract要約: 我々は、現在の評価パラダイムが未完成の欠陥に悩まされており、2種類の不安定性をもたらすと主張している。
Psは、軌跡アンコールトーナメントによるLSMの治療能力の校正を行う統一的なフレームワークである。
- 参考スコア(独自算出の注目度): 41.84590571482057
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models show promise in mental healthcare, evaluating their therapeutic competence remains challenging due to the unstructured and longitudinal nature of counseling. We argue that current evaluation paradigms suffer from an unanchored defect, leading to two forms of instability: process drift, where unsteered client simulation wanders away from specific counseling goals, and standard drift, where static pointwise scoring lacks the stability for reliable judgment. To address this, we introduce Ps, a unified framework that calibrates the therapeutic competence of LLMs via trajectory-anchored tournaments. We first anchor the interaction trajectory in simulation, where clients precisely control the fluid consultation process to probe multifaceted capabilities. We then anchor the battle trajectory in judgments through an efficient Swiss-system tournament, utilizing dynamic pairwise battles to yield robust Elo ratings. Beyond ranking, we demonstrate that tournament trajectories can be transformed into credible reward signals, enabling on-policy reinforcement learning to enhance LLMs' performance. Extensive experiments validate the effectiveness of PsychePass and its strong consistency with human expert judgments.
- Abstract(参考訳): 大規模言語モデルは精神医療において有望であるが、カウンセリングの非構造的かつ縦断的な性質のため、治療能力の評価は依然として困難である。
我々は、現在の評価パラダイムが未解決の欠陥に悩まされており、プロセスドリフト、未処理のクライアントシミュレーションが特定のカウンセリング目標から遠ざかるプロセスドリフト、静的点検定が信頼性の高い判断の安定性に欠ける標準ドリフトという2つのタイプの不安定性をもたらすと主張している。
これを解決するために,軌道対応トーナメントを通じてLLMの治療能力の校正を行う統一的なフレームワークであるPsを紹介する。
シミュレーションでは、クライアントが流体コンサルテーションのプロセスを正確に制御し、多面的能力を探索する。
次に、効率的なスイス・システムトーナメントを通じて、戦闘軌跡を判断に固定し、ダイナミックなペアワイズ・バトルを活用して、ロバストなエロ格付けを得る。
ランキングの他に、トーナメントの軌跡を信頼性の高い報酬信号に変換し、政治的強化学習によりLLMのパフォーマンスを向上させることを実証する。
広範囲にわたる実験は、サイケパスの有効性と、人間の専門家による判断との強い整合性を検証する。
関連論文リスト
- Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - Human-in-the-loop Online Rejection Sampling for Robotic Manipulation [55.99788088622936]
Hi-ORSは、オンライン微調整中に負の報酬を得たサンプルをフィルタリングすることで、値推定を安定化する。
Hi-ORSは、わずか1.5時間でコンタクトリッチな操作をマスターするためのpiベースのポリシーを微調整する。
論文 参考訳(メタデータ) (2025-10-30T11:53:08Z) - Rewarding the Journey, Not Just the Destination: A Composite Path and Answer Self-Scoring Reward Mechanism for Test-Time Reinforcement Learning [29.778703252962092]
大規模言語モデル(LLM)の進化のための強力なパラダイムとして強化学習(RL)が登場した。
外部の監督なしに動作する新しいテストタイム報酬機構を開発した。
論文 参考訳(メタデータ) (2025-10-20T07:53:51Z) - The Thinking Therapist: Training Large Language Models to Deliver Acceptance and Commitment Therapy using Supervised Fine-Tuning and Odds Ratio Policy Optimization [0.0]
アクセプタンス・アンド・コミット・セラピー(Acceptance and Commitment Therapy、ACT)は、認知行動療法の一種で、いくつかの精神疾患において効果の出現を示す。
本研究では,学習後方法論と明示的推論が小規模なオープンウェイト大規模言語モデル(LLM)のACT提供能力に与える影響について検討した。
論文 参考訳(メタデータ) (2025-09-08T02:30:12Z) - Personality as a Probe for LLM Evaluation: Method Trade-offs and Downstream Effects [0.6087817758152709]
本稿では,ビッグファイブ特性を用いたパーソナリティコントロールの体系的研究について述べる。
トラトレベルの分析では、オープン性はICLに最も耐性のある、独特な挑戦であり、同意性を示している。
Gemma-2-2B-ITとLLaMA-3-8B-Instructの実験により明らかなトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-09-05T04:19:15Z) - TriCon-SF: A Triple-Shuffle and Contribution-Aware Serial Federated Learning Framework for Heterogeneous Healthcare Data [22.044689597490123]
TriCon-SFは、トリプルシャッフルとコントリビューション意識を統合する新しいシリアル・フェデレーション・ラーニングフレームワークである。
非IIDヘルスケアデータセットの実験では、TriCon-SFが標準シリアルおよび並列フェデレーション学習を精度と通信効率の両方で上回っていることが示されている。
論文 参考訳(メタデータ) (2025-06-20T03:40:35Z) - Automated Fidelity Assessment for Strategy Training in Inpatient
Rehabilitation using Natural Language Processing [53.096237570992294]
戦略トレーニング (Strategy Training) とは、脳卒中後の認知障害患者に障害を減らすためのスキルを教える、リハビリテーションのアプローチである。
標準化された忠実度評価は治療原則の遵守度を測定するために用いられる。
本研究では,ルールベースNLPアルゴリズム,長短項メモリ(LSTM)モデル,および変換器(BERT)モデルからの双方向エンコーダ表現を開発した。
論文 参考訳(メタデータ) (2022-09-14T15:33:30Z) - Learning Domain Adaptive Object Detection with Probabilistic Teacher [93.76128726257946]
確率的教師(PT)と呼ばれる,シンプルで効果的な枠組みを提案する。
PTは、段階的に進化する教師から未ラベルの目標データの不確実性を捉え、相互に有利な方法で生徒の学習を指導することを目的としている。
また,不確実性誘導型自己学習を促進するために,新しいエントロピー・フォカル・ロス(EFL)を提案する。
論文 参考訳(メタデータ) (2022-06-13T16:24:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。