論文の概要: On Text Simplification Metrics and General-Purpose LLMs for Accessible Health Information, and A Potential Architectural Advantage of The Instruction-Tuned LLM class
- arxiv url: http://arxiv.org/abs/2511.05080v1
- Date: Fri, 07 Nov 2025 08:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.716277
- Title: On Text Simplification Metrics and General-Purpose LLMs for Accessible Health Information, and A Potential Architectural Advantage of The Instruction-Tuned LLM class
- Title(参考訳): アクセシブルヘルス情報のためのテキスト簡易化指標と汎用LCMについて : インストラクション・チューニング LLM クラスの可能性
- Authors: P. Bilha Githinji, Aikaterini Meilliou, Peiwu Qin,
- Abstract要約: 本稿では,2種類の汎用言語モデルの性能を実証的に評価する。
命令調整型Mistral 24Bと推論強化型QWen2.5 32Bのアーキテクチャ上の利点について検討する。
Mistralは、一連のメトリクスと単純化特異的なSARIの可読性を高める、テンプレート化された語彙的単純化戦略を示す。
QWenは可読性のパフォーマンスも向上するが、その運用戦略は可読性と精度のバランスが崩れていることを示している。
- 参考スコア(独自算出の注目度): 2.568600731965475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing health-seeking behavior and digital consumption of biomedical information by the general public necessitate scalable solutions for automatically adapting complex scientific and technical documents into plain language. Automatic text simplification solutions, including advanced large language models, however, continue to face challenges in reliably arbitrating the tension between optimizing readability performance and ensuring preservation of discourse fidelity. This report empirically assesses the performance of two major classes of general-purpose LLMs, demonstrating their linguistic capabilities and foundational readiness for the task compared to a human benchmark. Using a comparative analysis of the instruction-tuned Mistral 24B and the reasoning-augmented QWen2.5 32B, we identify a potential architectural advantage in the instruction-tuned LLM. Mistral exhibits a tempered lexical simplification strategy that enhances readability across a suite of metrics and the simplification-specific formula SARI (mean 42.46), while preserving human-level discourse with a BERTScore of 0.91. QWen also attains enhanced readability performance, but its operational strategy shows a disconnect in balancing between readability and accuracy, reaching a statistically significantly lower BERTScore of 0.89. Additionally, a comprehensive correlation analysis of 21 metrics spanning readability, discourse fidelity, content safety, and underlying distributional measures for mechanistic insights, confirms strong functional redundancies among five readability indices. This empirical evidence tracks baseline performance of the evolving LLMs for the task of text simplification, identifies the instruction-tuned Mistral 24B for simplification, provides necessary heuristics for metric selection, and points to lexical support as a primary domain-adaptation issue for simplification.
- Abstract(参考訳): 一般大衆による健康診断行動の増加と生体情報のデジタル消費は、複雑な科学的・技術的文書を自動的に平易な言語に適応させるスケーラブルなソリューションを必要としている。
しかし、先進的な大規模言語モデルを含む自動テキスト単純化ソリューションは、可読性性能の最適化と談話の忠実性の確保との緊張を確実に仲裁するという課題に直面し続けている。
本報告は, 汎用LLMの2つの主要クラスの性能を実証的に評価し, 人間のベンチマークと比較し, その言語的能力と基礎的準備性を示す。
命令チューニングされたMistral 24Bと推論拡張されたQWen2.5 32Bの比較分析を用いて、命令チューニングされたLLMにおける潜在的なアーキテクチャ上の利点を同定する。
Mistralは、一連のメトリクスと単純化特異的なSARI(平均42.46)の可読性を高めつつ、BERTScoreの0.91で人間レベルの談話を保存する、誘惑的な語彙的単純化戦略を示す。
QWenは可読性も向上するが、その運用戦略は可読性と精度のバランスが崩れており、統計的に低いBERTScoreの0.89に達する。
さらに, 可読性, 談話の忠実度, 内容の安全性, および機械的洞察の分布的尺度にまたがる21の指標の総合的相関分析により, 5つの可読性指標の強い機能的冗長性が確認された。
この実証的エビデンスでは、テキストの単純化作業のためのLLMのベースライン性能を追跡し、簡易化のための命令調整されたMistral 24Bを特定し、メートル法選択に必要なヒューリスティックを提供し、単純化のための主要なドメイン適応問題として語彙サポートを示す。
関連論文リスト
- LLM one-shot style transfer for Authorship Attribution and Verification [42.62647366317044]
監督的かつ対照的なアプローチは、急激な相関を持つデータに依存し、しばしばトピックと混同される。
本研究では,LLMの事前学習と文脈内学習機能に基づく教師なしの新たな手法を提案する。
提案手法は,LLMのアプローチを比較検討し,対照的に訓練されたベースラインよりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-10-15T08:43:24Z) - Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis [54.53152524778821]
言語モデル(LLM)への音声の統合は、その能力を大幅に拡張したが、多くの場合、中核となるテキスト能力の弱さを犠牲にしている。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案する。
レイヤワイズ学習率スケジューリングとローランド適応(LoRA)の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
論文 参考訳(メタデータ) (2025-09-28T09:04:40Z) - Joint Learning using Mixture-of-Expert-Based Representation for Enhanced Speech Generation and Robust Emotion Recognition [54.44798086835314]
音声感情認識(SER)は感情認識音声システム構築において重要な役割を担っているが,その性能は雑音下で著しく低下する。
本稿では, フレームワイド・エキスパート・ルーティングを自己教師付き音声表現に応用した, フレキシブルMTLフレームワークSparse Mixture-of-Experts Representation Integration Technique (Sparse MERIT)を提案する。
MSP-Podcastコーパスの実験では、Sparse MERITはSERとSEの両方のタスクのベースラインモデルより一貫して優れていた。
論文 参考訳(メタデータ) (2025-09-10T10:18:56Z) - Iterative Augmentation with Summarization Refinement (IASR) Evaluation for Unstructured Survey data Modeling and Analysis [0.43988112145759295]
本研究は,大規模言語モデル(LLM)に基づくテキスト拡張のための原則的評価フレームワークを導入する。
実証評価の結果, GPT-3.5 Turbo はセマンティック忠実度, 多様性, 生成効率の最良のバランスを達成できた。
論文 参考訳(メタデータ) (2025-07-16T10:49:30Z) - Language Bottleneck Models: A Framework for Interpretable Knowledge Tracing and Beyond [55.984684518346924]
我々は、知識追跡を逆問題として再考する: 過去の回答を説明できる最小限の自然言語要約を学習し、将来の回答を予測できる。
我々のLanguage Bottleneck Model(LBM)は、解釈可能な知識要約を書くエンコーダLLMと、その要約テキストのみを使用して生徒の反応を再構成し予測しなければならないフリーズデコーダLLMで構成されている。
合成算術ベンチマークと大規模Eediデータセットの実験により、LBMは最先端のKT法と直接LLM法の精度に匹敵する一方で、受講者軌道のオーダーを少なくすることを示した。
論文 参考訳(メタデータ) (2025-06-20T13:21:14Z) - Taming Polysemanticity in LLMs: Provable Feature Recovery via Sparse Autoencoders [50.52694757593443]
既存のSAEトレーニングアルゴリズムは厳密な数学的保証を欠いていることが多く、実用的な制限に悩まされている。
まず,特徴の特定可能性という新たな概念を含む特徴回復問題の統計的枠組みを提案する。
本稿では、ニューラルネットワークのバイアスパラメータを適応的に調整し、適切なアクティベーション間隔を確保する手法である「バイアス適応」に基づく新たなSAEトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-06-16T20:58:05Z) - Your Language Model May Think Too Rigidly: Achieving Reasoning Consistency with Symmetry-Enhanced Training [66.48331530995786]
我々は、文脈から有用な情報を抽出する能力を向上させるデータ中心のアプローチであるsyMmetry-ENhanceD (MEND) Data Augmentationを提案する。
推論連鎖の増大を強調する既存の手法とは異なり,本手法は知識抽出段階におけるモデルロバスト性を向上させる。
論理的および算術的推論タスクの実験は、MENDが様々なクエリのバリエーションで推論性能を向上させることを示している。
論文 参考訳(メタデータ) (2025-02-25T03:03:35Z) - Semantic Consistency Regularization with Large Language Models for Semi-supervised Sentiment Analysis [20.503153899462323]
本稿では,半教師付き感情分析のためのフレームワークを提案する。
テキストを意味的に拡張する2つのプロンプト戦略を導入する。
実験により,従来の半教師付き手法よりも優れた性能が得られた。
論文 参考訳(メタデータ) (2025-01-29T12:03:11Z) - Are Your LLMs Capable of Stable Reasoning? [38.03049704515947]
G-Pass@$k$は、複数のサンプリング試行においてモデル性能を継続的に評価する新しい評価指標である。
私たちはG-Pass@$k$と最先端の大規模言語モデルを使って、その潜在能力と運用上の一貫性に関する包括的な洞察を提供しています。
論文 参考訳(メタデータ) (2024-12-17T18:12:47Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。