論文の概要: Small Models Achieve Large Language Model Performance: Evaluating Reasoning-Enabled AI for Secure Child Welfare Research
- arxiv url: http://arxiv.org/abs/2512.04261v1
- Date: Wed, 03 Dec 2025 20:59:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.878592
- Title: Small Models Achieve Large Language Model Performance: Evaluating Reasoning-Enabled AI for Secure Child Welfare Research
- Title(参考訳): 大規模言語モデルの性能向上のための小モデル:児童福祉研究における推論型AIの評価
- Authors: Zia Qi, Brian E. Perron, Bryan G. Victor, Dragan Stoll, Joseph P. Ryan,
- Abstract要約: 本研究では、言語モデルが児童福祉記録における関心構造を正確に識別できるかどうかを検証するための、体系的なベンチマークフレームワークを開発する。
児童福祉調査サマリーにおけるリスク要因の同定のための4つの指標を構築した。
コーエンのカッパは、人間の専門家によって確立された金の標準分類との合意を測定した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Objective: This study develops a systematic benchmarking framework for testing whether language models can accurately identify constructs of interest in child welfare records. The objective is to assess how different model sizes and architectures perform on four validated benchmarks for classifying critical risk factors among child welfare-involved families: domestic violence, firearms, substance-related problems generally, and opioids specifically. Method: We constructed four benchmarks for identifying risk factors in child welfare investigation summaries: domestic violence, substance-related problems, firearms, and opioids (n=500 each). We evaluated seven model sizes (0.6B-32B parameters) in standard and extended reasoning modes, plus a mixture-of-experts variant. Cohen's kappa measured agreement with gold standard classifications established by human experts. Results: The benchmarking revealed a critical finding: bigger models are not better. A small 4B parameter model with extended reasoning proved most effective, outperforming models up to eight times larger. It consistently achieved "substantial" to "almost perfect" agreement across all four benchmark categories. This model achieved "almost perfect" agreement (\k{appa} = 0.93-0.96) on three benchmarks (substance-related problems, firearms, and opioids) and "substantial" agreement (\k{appa} = 0.74) on the most complex task (domestic violence). Small models with extended reasoning rivaled the largest models while being more resource-efficient. Conclusions: Small reasoning-enabled models achieve accuracy levels historically requiring larger architectures, enabling significant time and computational efficiencies. The benchmarking framework provides a method for evidence-based model selection to balance accuracy with practical resource constraints before operational deployment in social work research.
- Abstract(参考訳): 目的: 本研究は, 言語モデルが児童福祉記録における関心構造を正確に識別できるかどうかを, 評価するための体系的ベンチマーク・フレームワークを開発する。
本研究の目的は、児童福祉に関わる家族(家庭内暴力、銃器、物質関連問題、特にオピオイド)の重大なリスク要因を分類するための、検証済みの4つのベンチマークにおいて、モデルサイズとアーキテクチャの違いがどのように機能するかを評価することである。
方法: 児童福祉調査サマリーにおいて, 家庭内暴力, 物質関連問題, 銃器, オピオイド(n=500)のリスク要因を同定するための4つの指標を構築した。
標準および拡張推論モードにおける7つのモデルサイズ (0.6B-32Bパラメータ) の評価を行った。
コーエンのカッパは、人間の専門家によって確立された金の標準分類との合意を測定した。
結果: ベンチマークの結果,重要な発見が明らかになった。
推論を拡張した小さな4Bパラメータモデルが最も効果的で、最大8倍の性能を持つモデルであることが証明された。
4つのベンチマークカテゴリの"実質的"から"ほぼ完璧"な合意を一貫して達成した。
このモデルは3つのベンチマーク(物質関連問題、銃器、オピオイド)で「ほぼ完全な」合意(\k{appa} = 0.93-0.96)と、最も複雑なタスク(家庭内暴力)で「実質的」合意(\k{appa} = 0.74)を達成した。
拡張された推論を持つ小型モデルは最大のモデルに匹敵し、資源効率は向上した。
結論: 小さな推論可能なモデルは、歴史的により大きなアーキテクチャを必要とする精度レベルを達成し、かなりの時間と計算効率を実現する。
ベンチマークフレームワークは、社会労働研究における運用運用前に、エビデンスベースのモデル選択において、精度と実際の資源制約のバランスをとる方法を提供する。
関連論文リスト
- Catch Me If You Can: How Smaller Reasoning Models Pretend to Reason with Mathematical Fidelity [15.774418410083515]
表面パターンマッチングと実際の数学的推論を区別する診断フレームワークを提案する。
我々は表面性能と推論忠実度の間に顕著な不一致を明らかにした。
私たちの診断では、従来の精度メトリクスには見えない推論の失敗を明らかにします。
論文 参考訳(メタデータ) (2025-11-29T16:47:01Z) - Benchmarking LLM Causal Reasoning with Scientifically Validated Relationships [21.03106821967686]
因果推論は、真の因果関係を理解するための大言語モデルの基本である。
既存のベンチマークは、合成データへの依存やドメインカバレッジの狭さといった、重大な制限に悩まされている。
本稿では,上位階層の経済誌と財務誌から抽出したカジュアルに同定された関係から構築された新しいベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-10-08T17:00:49Z) - MORABLES: A Benchmark for Assessing Abstract Moral Reasoning in LLMs with Fables [50.29407048003165]
MORABLESは,歴史文献から引用されたファブレットと短編から構築された人間検証ベンチマークである。
主なタスクは、道徳的推論をターゲットとした複数選択の質問として構成されており、モデルが浅く抽出された質問応答を超えるよう挑戦する注意深い注意を払っている。
以上の結果から,より大きなモデルはより小さなモデルよりも優れているが,敵の操作に敏感であり,真の道徳的推論よりも表面的パターンに頼っていることが示唆された。
論文 参考訳(メタデータ) (2025-09-15T19:06:10Z) - Explicit Reasoning Makes Better Judges: A Systematic Study on Accuracy, Efficiency, and Robustness [12.513874407270142]
我々は,Large Language Models (LLMs) と "thinking" と "non-thinking" の体系的比較を示す。
RewardBenchタスクの精度と計算効率(FLOP)を評価した。
以上の結果から,思考モデルの精度は10%程度向上し,オーバーヘッドは少なかった。
論文 参考訳(メタデータ) (2025-09-09T18:36:02Z) - The Price of a Second Thought: On the Evaluation of Reasoning Efficiency in Large Language Models [54.88805865447848]
モデルが全体の効率を向上し,問題の難しさが効率に影響を及ぼすことを示す。
インストラクションモデルが簡単なアウトラインをドラフトし,思考モデルがそれを拡張する,シンプルな2段階パイプラインであるCOTHINKを提案する。
GSM8K、MATH500、AIME24では、COTHINKはトークンの使用量を21.1%削減し、4つの思考モデルの精度を維持し、強力な効率のベースラインと競争し続ける。
論文 参考訳(メタデータ) (2025-05-28T06:24:45Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Fairness Increases Adversarial Vulnerability [50.90773979394264]
フェアネスとロバストネスの間に二分法が存在することを示し、フェアネスを達成するとモデルロバストネスを減少させる。
非線形モデルと異なるアーキテクチャの実験は、複数の視覚領域における理論的発見を検証する。
フェアネスとロバストネスの良好なトレードオフを達成するためのモデルを構築するための,シンプルで効果的なソリューションを提案する。
論文 参考訳(メタデータ) (2022-11-21T19:55:35Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。