Fugu-MT 論文翻訳(概要): AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization

論文の概要: AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization

arxiv url: http://arxiv.org/abs/2602.20040v1
Date: Mon, 23 Feb 2026 16:49:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.908523
Title: AgenticSum: An Agentic Inference-Time Framework for Faithful Clinical Text Summarization
Title（参考訳）: AgenticSum: Fithful Clinical Text Summarizationのためのエージェント推論時間フレームワーク
Authors: Fahmida Liza Piya, Rahmatollah Beheshti,
Abstract要約: 本稿では, 文脈選択, 生成, 検証, 対象訂正を分離し, 幻覚的内容を減らすための推論時フレームワークであるAgenticSumを提案する。我々は,2つの公開データセット上で,基準ベースメトリクス,LCM-as-a-judgeアセスメント,人的評価を用いてエージェントサムを評価する。以上の結果から, 目標修正を施した構造的エージェント設計は, 臨床メモの要約を改善するための効果的な推測時間解を提供することが明らかとなった。
参考スコア（独自算出の注目度）: 6.99563009617414
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) offer substantial promise for automating clinical text summarization, yet maintaining factual consistency remains challenging due to the length, noise, and heterogeneity of clinical documentation. We present AgenticSum, an inference-time, agentic framework that separates context selection, generation, verification, and targeted correction to reduce hallucinated content. The framework decomposes summarization into coordinated stages that compress task-relevant context, generate an initial draft, identify weakly supported spans using internal attention grounding signals, and selectively revise flagged content under supervisory control. We evaluate AgenticSum on two public datasets, using reference-based metrics, LLM-as-a-judge assessment, and human evaluation. Across various measures, AgenticSum demonstrates consistent improvements compared to vanilla LLMs and other strong baselines. Our results indicate that structured, agentic design with targeted correction offers an effective inference time solution to improve clinical note summarization using LLMs.
Abstract（参考訳）: 大規模言語モデル(LLM)は、臨床文書の要約を自動化するためのかなりの約束を提供するが、臨床文書の長さ、ノイズ、不均一性のために、事実整合性を維持することは依然として困難である。本稿では, 文脈選択, 生成, 検証, 目標修正を分離し, 幻覚的内容を減らすための推論時エージェントフレームワーク, AgenticSumを提案する。このフレームワークは、タスク関連コンテキストを圧縮し、初期ドラフトを生成し、内部の注目グラウンド信号を用いて弱い支持されたスパンを識別し、監督管理下でフラグ付きコンテンツを選択的に修正する調整段階に分解する。我々は,2つの公開データセット上で,基準ベースメトリクス,LCM-as-a-judgeアセスメント,人的評価を用いてエージェントサムを評価する。 AgenticSumはさまざまな指標において、バニラLSMや他の強力なベースラインと比較して一貫した改善を示している。以上の結果から, 目標修正を施した構造的エージェント設計は, LLMを用いた臨床メモ要約の改善に有効な推測時間解を提供することが示された。

関連論文リスト

DeepSynth-Eval: Objectively Evaluating Information Consolidation in Deep Survey Writing [53.85037373860246]
本稿では,情報統合能力を客観的に評価するためのベンチマークであるDeep Synth-Evalを紹介する。一般チェックリスト(実例)と制約チェックリスト(構造体)を用いたきめ細かい評価プロトコルを提案する。その結果,エージェント型プラン・アンド・ライトは単ターン生成よりも大幅に優れていた。
論文参考訳（メタデータ） (2026-01-07T03:07:52Z)
Explicit Knowledge-Guided In-Context Learning for Early Detection of Alzheimer's Disease [7.882332873800141]
EK-ICLは構造化された明示的知識を統合し、文脈内学習における推論安定性とタスクアライメントを高める。実験により、EK-ICLは最先端の微調整とICLベースラインを著しく上回っていることが示された。
論文参考訳（メタデータ） (2025-11-09T04:01:45Z)
TS-Agent: A Time Series Reasoning Agent with Iterative Statistical Insight Gathering [16.95452463476229]
大規模言語モデル(LLM)のための時系列推論エージェントTS-Agentを提案する。時系列をテキストトークン、画像、埋め込みにマッピングする代わりに、我々のエージェントは原子演算子を介して生の数値列と相互作用する。実験の結果,TS-Agent は理解ベンチマークの最先端 LLM に匹敵する性能を達成できた。
論文参考訳（メタデータ） (2025-10-08T18:31:53Z)
MIRAGE-Bench: LLM Agent is Hallucinating and Where to Find Them [52.764019220214344]
幻覚は、大きな言語モデル(LLM)ベースのエージェントに重大なリスクをもたらす。 MIRAGE-Benchは対話型環境における幻覚の抽出と評価のための最初の統一ベンチマークである。
論文参考訳（メタデータ） (2025-07-28T17:38:29Z)
CLI-RAG: A Retrieval-Augmented Framework for Clinically Structured and Context Aware Text Generation with LLMs [0.1578515540930834]
CLI-RAG (Clinically Informed Retrieval-Augmented Generation) は、構造的および臨床的な基盤となるテキスト生成のためのドメイン固有のフレームワークである。臨床文書構造を尊重する新しい階層的チャンキング戦略を取り入れ、タスク固有の2段階検索機構を導入する。本システムを用いて,MIMIC-IIIデータセットから15種類の臨床ノートを作成した。
論文参考訳（メタデータ） (2025-07-09T10:13:38Z)
Retrieval is Not Enough: Enhancing RAG Reasoning through Test-Time Critique and Optimization [58.390885294401066]
Retrieval-augmented Generation (RAG) は知識基底型大規模言語モデル(LLM)を実現するためのパラダイムとして広く採用されている。 RAGパイプラインは、モデル推論が得られた証拠と整合性を維持するのに失敗することが多く、事実上の矛盾や否定的な結論につながる。批判駆動アライメント(CDA)に基づく新しい反復的枠組みであるAlignRAGを提案する。 AlignRAG-autoは、動的に洗練を終了し、批判的な反復回数を事前に指定する必要がなくなる自律的な変種である。
論文参考訳（メタデータ） (2025-04-21T04:56:47Z)
GEMA-Score: Granular Explainable Multi-Agent Scoring Framework for Radiology Report Evaluation [7.838068874909676]
Granular Explainable Multi-Agent Score (GEMA-Score)は、大規模言語モデルに基づくマルチエージェントワークフローを通じて、客観的および主観的評価を行う。 GEMA-Scoreは、公開データセット上での人間の専門家評価と最も高い相関を達成している。
論文参考訳（メタデータ） (2025-03-07T11:42:22Z)
Aligning Large Language Models to Follow Instructions and Hallucinate Less via Effective Data Filtering [66.5524727179286]
NOVAは、幻覚を減らすための学習知識とよく一致した高品質なデータを特定するために設計されたフレームワークである。内部整合性探索(ICP)とセマンティック等価同定(SEI)が含まれており、LLMが命令データとどれだけ親しみやすいかを測定する。選択したサンプルの品質を確保するため,親しみ以上の特性を考慮した専門家による報酬モデルを導入する。
論文参考訳（メタデータ） (2025-02-11T08:05:56Z)
Mitigating Hallucinations of Large Language Models in Medical Information Extraction via Contrastive Decoding [92.32881381717594]
医療情報抽出タスクにおける幻覚の問題を解決するために,ALCD(ALternate Contrastive Decoding)を導入する。 ALCDは, 従来の復号法に比べて幻覚の解消に有意な改善が見られた。
論文参考訳（メタデータ） (2024-10-21T07:19:19Z)
Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。 ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文参考訳（メタデータ） (2024-03-01T21:59:03Z)
Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文参考訳（メタデータ） (2023-05-30T22:05:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。