論文の概要: LLM StructCore: Schema-Guided Reasoning Condensation and Deterministic Compilation
- arxiv url: http://arxiv.org/abs/2604.20560v1
- Date: Wed, 22 Apr 2026 13:42:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.147667
- Title: LLM StructCore: Schema-Guided Reasoning Condensation and Deterministic Compilation
- Title(参考訳): LLMStructCore: スキーマ誘導推論縮合と決定論的コンパイル
- Authors: Serhii Zabolotnii,
- Abstract要約: 契約誘導推論(SGR)を基礎とした契約駆動型2段設計によるDyspnea CRF充填(134項目)のCL4Health 2026申請について述べる。
フィールドの大部分が不明であり、公式のスコアリングは空の値とサポートなしの予測の両方をペナルティ化する。
ひとつのステップ "LLM" アプローチから,ステージ1の要約を解析し,項目名を正規化し,エビデンス付き偽陽性フィルタを適用し,出力を 134-item フォーマットに拡張する,完全に決定論的な 0-LLM コンパイラに移行する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatically filling Case Report Forms (CRFs) from clinical notes is challenging due to noisy language, strict output contracts, and the high cost of false positives. We describe our CL4Health 2026 submission for Dyspnea CRF filling (134 items) using a contract-driven two-stage design grounded in Schema-Guided Reasoning (SGR). The key task property is extreme sparsity: the majority of fields are unknown, and official scoring penalizes both empty values and unsupported predictions. We shift from a single-step "LLM predicts 134 fields" approach to a decomposition where (i) Stage 1 produces a stable SGR-style JSON summary with exactly 9 domain keys, and (ii) Stage 2 is a fully deterministic, 0-LLM compiler that parses the Stage 1 summary, canonicalizes item names, normalizes predictions to the official controlled vocabulary, applies evidence-gated false-positive filters, and expands the output into the required 134-item format. On the dev80 split, the best teacher configuration achieves macro-F1 0.6543 (EN) and 0.6905 (IT); on the hidden test200, the submitted English variant scores 0.63 on Codabench. The pipeline is language-agnostic: Italian results match or exceed English with no language-specific engineering.
- Abstract(参考訳): 症例報告フォーム(CRF)を臨床ノートから自動的に充満することは、ノイズの多い言語、厳密な出力契約、偽陽性のコストが高いために困難である。
本稿では,SGR(Schema-Guided Reasoning)を基盤とした契約駆動型2段階設計を用いて,Dyspnea CRF充填用CL4Health 2026の提出(134項目)について述べる。
フィールドの大部分が不明であり、公式のスコアリングは空の値とサポートされない予測の両方をペナルティ化する。
単一ステップ "LLM predicts 134 field" アプローチから分解へ移行する。
(i)ステージ1は、正確に9つのドメインキーを持つ安定したSGRスタイルのJSONサマリを生成し、
(ii)ステージ2は、完全に決定論的で0-LLMコンパイラで、ステージ1の要約を解析し、項目名を正規化し、公式な制御語彙に予測を正規化し、エビデンス付き偽陽性フィルタを適用し、出力を134-itemフォーマットに拡張する。
dev80スプリットでは、最高の教師構成がマクロF1 0.6543 (EN) と 0.6905 (IT) を達成する。
パイプラインは言語に依存しない: イタリア語の結果は、言語固有のエンジニアリングを持たない英語に一致するか、超える。
関連論文リスト
- SlovKE: A Large-Scale Dataset and LLM Evaluation for Slovak Keyphrase Extraction [0.00954904463032233]
形態学的に豊かな低リソース言語のためのキーフレーズ抽出は現在も検討されている。
著者指定キーフレーズを用いた227,432の科学的要約データセットを構築した。
KeyLLMは、著者によって割り当てられた標準形式に近いキーフレーズを生成する。
統計的手法では,形態的ミスマッチが主流の障害モードであることがわかった。
論文 参考訳(メタデータ) (2026-03-16T16:47:45Z) - OpenSanctions Pairs: Large-Scale Entity Matching with LLMs [0.9131359219276399]
我々は,実世界の国際制裁アグリゲーションとアナリストの重複から派生した,大規模エンティティマッチングベンチマークOpenSanctions Pairsをリリースした。
データセットには、31か国で293の異種源にまたがる755,540のラベル付きペアが含まれている。
オフザシェルフ LLM は生産ルールベースのベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2026-02-24T06:25:49Z) - LLMSR@XLLM25: An Empirical Study of LLM for Structural Reasoning [6.700515856842664]
We present Team asdfo123's submit to the LLMSR@XLLM25 shared task。
我々は、粒度、制御性、解釈可能な推論プロセスを生成する上で、大きな言語モデルを評価する。
提案手法は, マクロF1スコアを, より複雑で資源消費の少ないパイプラインと同等に達成し, 総合5位にランク付けする。
論文 参考訳(メタデータ) (2025-05-18T09:46:30Z) - Paloma: A Benchmark for Evaluating Language Model Fit [112.481957296585]
言語モデル (LM) の評価では、トレーニングから切り離されたモノリシックなデータに難易度が報告されるのが一般的である。
Paloma(Perplexity Analysis for Language Model Assessment)は、546の英語およびコードドメインに適合するLMを測定するベンチマークである。
論文 参考訳(メタデータ) (2023-12-16T19:12:45Z) - Evaluating the Factual Consistency of Large Language Models Through News
Summarization [97.04685401448499]
本稿では,要約タスクに着目したFIB(Factual Inconsistency Benchmark)と呼ばれる新しいベンチマークを提案する。
現実的に一貫した要約では、手作業で事実的に一貫したものとして検証する、人書きの参照要約を使用します。
現実的に矛盾しない要約に対して、我々は、事実的に矛盾しているとして手動で注釈付けした一連の要約モデルから要約を生成する。
論文 参考訳(メタデータ) (2022-11-15T18:50:34Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - IDIAPers @ Causal News Corpus 2022: Efficient Causal Relation
Identification Through a Prompt-based Few-shot Approach [3.4423596432619754]
我々は、微調整言語モデル(LM)のための単純だが相補的手法のセットを活用することで、因果関係同定(CRI)タスクに対処する。
我々は、CRIタスクをマスキング言語モデリング問題(MLM)として扱う微調整LMのプロンプトベースの予測手法に従う。
本手法の性能を,データセット全体で訓練されたアンサンブル手法と比較する。
論文 参考訳(メタデータ) (2022-09-08T16:03:50Z) - Towards No.1 in CLUE Semantic Matching Challenge: Pre-trained Language
Model Erlangshen with Propensity-Corrected Loss [12.034243662298035]
本稿では,事前訓練された言語モデルErlangshenについて述べる。
マスケッド言語モデリング(MLM)における知識に基づく動的マスキング戦略を構築する。
総合すると、F1スコアで72.54点、テストセットで78.90点となる。
論文 参考訳(メタデータ) (2022-08-05T02:52:29Z) - LM-Critic: Language Models for Unsupervised Grammatical Error Correction [128.9174409251852]
文を文法的に判断する LM-Critic の定義において,事前訓練された言語モデル (LM) の活用法を示す。
このLM-Critic と BIFI と、ラベルなし文の集合を併用して、現実的な非文法的/文法的ペアをブートストラップし、修正子を訓練する。
論文 参考訳(メタデータ) (2021-09-14T17:06:43Z) - Explicit Alignment Objectives for Multilingual Bidirectional Encoders [111.65322283420805]
本稿では,多言語エンコーダAMBER(Aligned Multilingual Bi-directional EncodeR)の学習方法を提案する。
AMBERは、異なる粒度で多言語表現を整列する2つの明示的なアライメント目標を使用して、追加の並列データに基づいて訓練される。
実験結果から、AMBERは、シーケンスタグ付けで1.1平均F1スコア、XLMR-大規模モデル上での検索で27.3平均精度を得ることがわかった。
論文 参考訳(メタデータ) (2020-10-15T18:34:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。