論文の概要: Reasoning Language Models for complex assessments tasks: Evaluating parental cooperation from child protection case reports
- arxiv url: http://arxiv.org/abs/2602.14216v1
- Date: Sun, 15 Feb 2026 16:14:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:49.743969
- Title: Reasoning Language Models for complex assessments tasks: Evaluating parental cooperation from child protection case reports
- Title(参考訳): 複雑なアセスメントタスクのための推論言語モデル:児童保護事例報告からの親の協力の評価
- Authors: Dragan Stoll, Brian E. Perron, Zia Qi, Selina Steinmann, Nicole F. Eicher, Andreas Jud,
- Abstract要約: 推論言語モデル(RLM)は複雑な推論タスクを解く上で大きな進歩を見せている。
症例報告を用いてCPS介入時の親の協力度を評価する可能性について検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Purpose: Reasoning language models (RLMs) have demonstrated significant advances in solving complex reasoning tasks. We examined their potential to assess parental cooperation during CPS interventions using case reports, a case factor characterized by ambiguous and conflicting information. Methods: A four stage workflow comprising (1) case reports collection, (2) reasoning-based assessment of parental cooperation, (3) automated category extraction, and (4) case labeling was developed. The performance of RLMs with different parameter sizes (255B, 32B, 4B) was compared against human validated data. Two expert human reviewers (EHRs) independently classified a weighted random sample of reports. Results: The largest RLM achieved the highest accuracy (89%), outperforming the initial approach (80%). Classification accuracy was higher for mothers (93%) than for fathers (85%), and EHRs exhibited similar differences. Conclusions: RLMs' reasoning can effectively assess complex case factors such as parental cooperation. Lower accuracy in assessing fathers' cooperation supports the argument of a stronger professional focus on mothers in CPS interventions.
- Abstract(参考訳): 目的: 推論言語モデル (RLM) は複雑な推論タスクの解法において大きな進歩を示した。
今回我々は,CPS介入時の親の協力関係について,不明瞭で矛盾する情報を特徴とする症例報告を用いて検討した。
方法:(1)ケースレポート収集,(2)推論に基づく親の協力評価,(3)自動カテゴリー抽出,(4)ケースラベリングを含む4段階のワークフローを開発した。
異なるパラメータサイズ (255B, 32B, 4B) のRLMの性能を人間の検証データと比較した。
2人の専門家の人間レビュアー(EHR)は独立に、報告書の重み付けされたランダムなサンプルを分類した。
結果: RLM が最も高い精度 (89%) を達成し, 初期アプローチ (80%) を上回った。
母親の分類精度は, 父親の85%より93%高く, EHRでは同様の差異が認められた。
結論: RLMの推論は、親の協力のような複雑なケースファクターを効果的に評価することができる。
父親の協力を評価する精度の低下は、CPS介入における母親に対するより強い専門的焦点の議論を支持する。
関連論文リスト
- Outcome Accuracy is Not Enough: Aligning the Reasoning Process of Reward Models [108.26461635308796]
Rationale Consistencyは、モデルの推論プロセスと人間の判断のアライメントを定量化する、きめ細かい計量である。
我々のフロンティアモデルの評価では,最先端モデル間で合理的な一貫性が効果的に識別できることが示されている。
我々は、GenRMトレーニングの合理性一貫性と結果精度を組み合わせたハイブリッド信号を導入する。
論文 参考訳(メタデータ) (2026-02-04T15:24:52Z) - Small Models Achieve Large Language Model Performance: Evaluating Reasoning-Enabled AI for Secure Child Welfare Research [0.0]
本研究では、言語モデルが児童福祉記録における関心構造を正確に識別できるかどうかを検証するための、体系的なベンチマークフレームワークを開発する。
児童福祉調査サマリーにおけるリスク要因の同定のための4つの指標を構築した。
コーエンのカッパは、人間の専門家によって確立された金の標準分類との合意を測定した。
論文 参考訳(メタデータ) (2025-12-03T20:59:54Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Predicting Preschoolers' Externalizing Problems with Mother-Child Interaction Dynamics and Deep Learning [7.323141824828041]
これまでの研究では、母親が子どもの抑うつに反応して支援を行うのが、子どもの外部化問題のレベルが低かったことが示されている。
本研究は,母子間相互作用のダイナミクスを用いて,子どもの外部化問題の予測精度を評価・改善することを目的とする。
論文 参考訳(メタデータ) (2024-12-29T14:22:48Z) - Analysis of child development facts and myths using text mining techniques and classification models [1.2416206871977309]
本研究は,児童発達に関する神話と事実を区別するために,テキストマイニング手法と分類モデルを適用した。
ロジスティック回帰は高い精度を示し、Bag-of-Words特徴抽出技術で90%の精度を達成した。
論文 参考訳(メタデータ) (2024-08-23T14:16:54Z) - I-SIRch: AI-Powered Concept Annotation Tool For Equitable Extraction And Analysis Of Safety Insights From Maternity Investigations [0.8609957371651683]
医療データを分析するための現在のツールのほとんどは、人間の要素の重要性を見越して、バイオメディカルな概念にのみ焦点をあてている。
We developed I-SIRch, using AI to Automatic Identification and label human factors concept。
I-SIRchは実データを用いて訓練され、実データとシミュレーションデータの両方でテストし、人間の因子の概念を識別する性能を評価した。
論文 参考訳(メタデータ) (2024-06-08T16:05:31Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。