Fugu-MT 論文翻訳(概要): Evaluating Structured Output Robustness of Small Language Models for Open Attribute-Value Extraction from Clinical Notes

論文の概要: Evaluating Structured Output Robustness of Small Language Models for Open Attribute-Value Extraction from Clinical Notes

arxiv url: http://arxiv.org/abs/2507.01810v1
Date: Wed, 02 Jul 2025 15:27:41 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-03 14:23:00.359491
Title: Evaluating Structured Output Robustness of Small Language Models for Open Attribute-Value Extraction from Clinical Notes
Title（参考訳）: 臨床ノートからのオープン属性値抽出のための小言語モデルの構造的出力ロバスト性の評価
Authors: Nikita Neveditsin, Pawan Lingras, Vijay Mago,
Abstract要約: 我々は、アトリビュート、YAML、XMLの3つの広く使われているシリアライズフォーマットを評価した。ターゲットのプロンプトや大規模モデルによってロバスト性は向上するが、長いドキュメントや特定のノートタイプでは低下する。
参考スコア（独自算出の注目度）: 1.5020330976600738
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a comparative analysis of the parseability of structured outputs generated by small language models for open attribute-value extraction from clinical notes. We evaluate three widely used serialization formats: JSON, YAML, and XML, and find that JSON consistently yields the highest parseability. Structural robustness improves with targeted prompting and larger models, but declines for longer documents and certain note types. Our error analysis identifies recurring format-specific failure patterns. These findings offer practical guidance for selecting serialization formats and designing prompts when deploying language models in privacy-sensitive clinical settings.
Abstract（参考訳）: 臨床ノートからオープン属性値抽出のための小言語モデルにより生成された構造的アウトプットのパース可能性の比較分析を行った。我々は、JSON、YAML、XMLの3つの広く使われているシリアライズフォーマットを評価し、JSONが最も高いパーセビリティが得られることを発見した。構造的堅牢性は、ターゲットのプロンプトとより大きなモデルによって改善されるが、長いドキュメントや特定のノートタイプでは低下する。エラー解析では、繰り返し発生するフォーマット固有の障害パターンを同定する。これらの知見は、プライバシに敏感な臨床環境に言語モデルを展開する際に、シリアライズフォーマットを選択し、プロンプトを設計するための実践的なガイダンスを提供する。

関連論文リスト

StructText: A Synthetic Table-to-Text Approach for Benchmark Generation with Multi-Dimensional Evaluation [8.251302684712773]
StructTextは、テキストからキー値抽出のための高忠実度ベンチマークを自動的に生成するエンドツーエンドフレームワークである。提案手法は,49件の文書を対象とした71,539件のサンプルを用いて評価した。
論文参考訳（メタデータ） (2025-07-28T21:20:44Z)
Lost in Space: Finding the Right Tokens for Structured Output [3.5757761767474876]
LLMシステムは構造化出力をますますサポートし、文法に従ってトークンをサンプリングすることでフォーマットを強制する。意味的に(しばしば視覚的に)人間に似ている文法の間に体系的な違いはあるか? 我々は4つの共通NLPベンチマークで5つの出力形式を持つ4つの一般的なモデルファミリをテストする。複数選択の文字や数値予測のための実数など,コンベンションを尊重する形式をガイドした場合には,すべてのモデルが最も正確であることがわかった。
論文参考訳（メタデータ） (2025-02-20T19:06:18Z)
StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。 StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文参考訳（メタデータ） (2024-12-23T22:08:40Z)
DictLLM: Harnessing Key-Value Data Structures with Large Language Models for Enhanced Medical Diagnostics [36.057925881268226]
DictLLMは、医学実験室報告のようなキーバリュー構造化データのモデリングを改善するために設計された革新的なフレームワークである。診断自動生成のための総合的な実世界医療実験室レポートデータセットを用いて,様々なLCMモデルを用いた実験を行った。
論文参考訳（メタデータ） (2024-02-18T07:10:02Z)
Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文参考訳（メタデータ） (2024-02-06T22:15:09Z)
Quantifying Language Models' Sensitivity to Spurious Features in Prompt Design or: How I learned to start worrying about prompt formatting [68.19544657508509]
言語モデル(LLM)は、言語技術の基本コンポーネントとして採用されている。いくつかの広く使われているオープンソースLLMは、数ショット設定でプロンプトフォーマットの微妙な変更に対して非常に敏感であることがわかった。本稿では,与えられたタスクに対して有効なプロンプトフォーマットのサンプルセットを迅速に評価するアルゴリズムを提案し,モデル重み付けにアクセスせずに期待性能の間隔を報告する。
論文参考訳（メタデータ） (2023-10-17T15:03:30Z)
Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文参考訳（メタデータ） (2022-10-26T13:27:26Z)
Text Characterization Toolkit [33.6713815884553]
我々は、新しいモデルやベンチマークを示す際に、より深い結果分析がデファクトスタンダードになるべきだと論じている。研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。
論文参考訳（メタデータ） (2022-10-04T16:54:11Z)
BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。 APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文参考訳（メタデータ） (2022-06-21T18:34:11Z)
Explicitly Modeling Syntax in Language Models with Incremental Parsing and a Dynamic Oracle [88.65264818967489]
我々は新しい構文認識型言語モデル、Syntactic Ordered Memory (SOM)を提案する。モデルは、構造をインクリメンタルにモデル化し、標準言語モデルの条件付き確率設定を維持する。実験により、SOMは言語モデリング、インクリメンタル解析、構文一般化テストにおいて強力な結果が得られることが示された。
論文参考訳（メタデータ） (2020-10-21T17:39:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。