論文の概要: Evaluating Structured Output Robustness of Small Language Models for Open Attribute-Value Extraction from Clinical Notes
- arxiv url: http://arxiv.org/abs/2507.01810v1
- Date: Wed, 02 Jul 2025 15:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.359491
- Title: Evaluating Structured Output Robustness of Small Language Models for Open Attribute-Value Extraction from Clinical Notes
- Title(参考訳): 臨床ノートからのオープン属性値抽出のための小言語モデルの構造的出力ロバスト性の評価
- Authors: Nikita Neveditsin, Pawan Lingras, Vijay Mago,
- Abstract要約: 我々は、アトリビュート、YAML、XMLの3つの広く使われているシリアライズフォーマットを評価した。
ターゲットのプロンプトや大規模モデルによってロバスト性は向上するが、長いドキュメントや特定のノートタイプでは低下する。
- 参考スコア(独自算出の注目度): 1.5020330976600738
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a comparative analysis of the parseability of structured outputs generated by small language models for open attribute-value extraction from clinical notes. We evaluate three widely used serialization formats: JSON, YAML, and XML, and find that JSON consistently yields the highest parseability. Structural robustness improves with targeted prompting and larger models, but declines for longer documents and certain note types. Our error analysis identifies recurring format-specific failure patterns. These findings offer practical guidance for selecting serialization formats and designing prompts when deploying language models in privacy-sensitive clinical settings.
- Abstract(参考訳): 臨床ノートからオープン属性値抽出のための小言語モデルにより生成された構造的アウトプットのパース可能性の比較分析を行った。
我々は、JSON、YAML、XMLの3つの広く使われているシリアライズフォーマットを評価し、JSONが最も高いパーセビリティが得られることを発見した。
構造的堅牢性は、ターゲットのプロンプトとより大きなモデルによって改善されるが、長いドキュメントや特定のノートタイプでは低下する。
エラー解析では、繰り返し発生するフォーマット固有の障害パターンを同定する。
これらの知見は、プライバシに敏感な臨床環境に言語モデルを展開する際に、シリアライズフォーマットを選択し、プロンプトを設計するための実践的なガイダンスを提供する。
関連論文リスト
- StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - DictLLM: Harnessing Key-Value Data Structures with Large Language Models
for Enhanced Medical Diagnostics [36.057925881268226]
DictLLMは、医学実験室報告のようなキーバリュー構造化データのモデリングを改善するために設計された革新的なフレームワークである。
診断自動生成のための総合的な実世界医療実験室レポートデータセットを用いて,様々なLCMモデルを用いた実験を行った。
論文 参考訳(メタデータ) (2024-02-18T07:10:02Z) - Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。
いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。
本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文 参考訳(メタデータ) (2023-10-17T15:03:30Z) - Text Characterization Toolkit [33.6713815884553]
我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。
研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
論文 参考訳(メタデータ) (2022-10-04T16:54:11Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - Explicitly Modeling Syntax in Language Models with Incremental Parsing
and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。
モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。
実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-21T17:39:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。