論文の概要: Comparing LLM and Fine-Tuned Model Performance on NVDRS Circumstance Extraction with Varying Prompt Complexity
- arxiv url: http://arxiv.org/abs/2605.21845v1
- Date: Thu, 21 May 2026 00:33:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:42.037612
- Title: Comparing LLM and Fine-Tuned Model Performance on NVDRS Circumstance Extraction with Varying Prompt Complexity
- Title(参考訳): NVDRS循環抽出におけるLLMと微調整モデルの性能の比較とVarying Prompt Complexity
- Authors: Geoffrey Martin, Xuan Zhong Feng, Yifan Peng,
- Abstract要約: そこで本研究では,コード名のみのプロンプトよりも詳細なプロンプトが改良された場合の予測を手作業で行うアルゴリズムを開発した。
我々は,国立暴力死亡報告システムから25の複雑な状況下で,大規模言語モデル (LLM) を微調整したRoBERTaに対して評価した。
- 参考スコア(独自算出の注目度): 8.474809035213118
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Suicide is a leading cause of death in the United States, and understanding the circumstances that precede it requires extracting structured information from death investigation narratives. Many of these circumstances require semantic inference beyond simple keyword matching. We develop a ``Complexity Score'' algorithm that analyzes coding manual structure to predict when detailed prompts with full coding guidelines improve over name-only prompts. We then construct a hybrid approach that selects prompt strategy per circumstance. We evaluate large language models (LLMs) against fine-tuned RoBERTa on 25 inferentially complex circumstances from the National Violent Death Reporting System (NVDRS). We found that LLMs substantially outperform on low-prevalence circumstances where training data is insufficient. We further demonstrate that our framework generalizes across frontier LLMs, with GPT-5.2, Gemini 2.5 Pro and Llama-3 70B showing consistent performance patterns. These findings support a hybrid architecture where LLMs handle rare, inferentially complex circumstances while fine-tuned models handle common ones.
- Abstract(参考訳): 自殺はアメリカ合衆国における主要な死因であり、それ以前の状況を理解するためには、死亡調査の物語から構造化された情報を抽出する必要がある。
これらの状況の多くは、単純なキーワードマッチング以上の意味推論を必要とする。
このアルゴリズムは,コード名のみのプロンプトより詳細なプロンプトをいつ改善するかを,手作業で解析して予測する。
次に、状況に応じた迅速な戦略を選択するハイブリッドアプローチを構築する。
NVDRS(National Violent Death Reporting System)において,大言語モデル(LLM)と細調整RoBERTa(RoBERTa)を比較した。
その結果,LLMはトレーニングデータが不十分な低頻度環境ではかなり優れていた。
我々はさらに,GPT-5.2,Gemini 2.5 Pro,Llama-370Bなど,フロンティアのLLMをまたいだフレームワークの一般化を実証した。
これらの発見は、LLMが稀で複雑な状況に対処するハイブリッドアーキテクチャをサポートし、微調整されたモデルが一般的な状況に対処する。
関連論文リスト
- Quantifying Laziness, Decoding Suboptimality, and Context Degradation in Large Language Models [0.4511923587827302]
大規模言語モデル(LLM)は、遅延性、復号化部分最適化、文脈劣化などの振る舞いのアーチファクトを示すことが多い。
以上の結果から, 複雑な多部命令を満足する上で, 広範囲な怠け度が示唆された。
遅延を減らし、マルチインストラクションコンプライアンスを強化する戦略を提案する。
論文 参考訳(メタデータ) (2025-12-19T03:01:59Z) - Incentivizing Reasoning for Advanced Instruction-Following of Large Language Models [31.962209251193272]
CoT(Chain-of- Thought)は、大規模言語モデル(LLM)の能力を普遍的に改善することが期待される。
テスト時間計算のスケーリングに対する推論をインセンティブ化することで,複雑な命令を扱う上でのLLMを向上する体系的手法であるRAIFを提案する。
より優れたCoT施行のためのサンプルワイドコントラストによる複雑な指示の下での推論の浅く、重要でない性質に対処する。
論文 参考訳(メタデータ) (2025-06-02T08:11:44Z) - HELMET: How to Evaluate Long-Context Language Models Effectively and Thoroughly [34.205934899868346]
HELMETは7つの多様なアプリケーション中心のカテゴリを包含する総合ベンチマークである。
NIAHのような合成タスクは、下流のパフォーマンスを確実に予測できない。
ほとんどのLCLMは完全なNIAHスコアを達成しているが、タスクが完全コンテキスト推論を必要とする場合、オープンソースモデルはクローズドなスコアよりも大幅に遅れている。
論文 参考訳(メタデータ) (2024-10-03T17:20:11Z) - On the Worst Prompt Performance of Large Language Models [93.13542053835542]
大規模言語モデル(LLM)の性能は,プロンプトの表現に非常に敏感である。
セマンティックに等価なケースレベルのクエリで構成される新しいベンチマークであるRobustAlpacaEvalを紹介する。
RobustAlpacaEvalとChatGPT、およびLlama、Mistral、Gemmaファミリーの6つのオープンソースLLMによる実験により、モデル性能のかなりのばらつきが明らかになった。
論文 参考訳(メタデータ) (2024-06-08T13:40:38Z) - Can Large Language Models Understand Real-World Complex Instructions? [54.86632921036983]
大型言語モデル(LLM)は人間の指示を理解することができるが、複雑な命令には耐えられない。
既存のベンチマークでは、LLMが複雑な命令を理解する能力を評価するには不十分である。
複雑な命令を体系的に追従するLSMの能力を評価するためのベンチマークであるCellOを提案する。
論文 参考訳(メタデータ) (2023-09-17T04:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。