Fugu-MT 論文翻訳(概要): ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

論文の概要: ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents

arxiv url: http://arxiv.org/abs/2604.02834v1
Date: Fri, 03 Apr 2026 07:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.385839
Title: ESL-Bench: An Event-Driven Synthetic Longitudinal Benchmark for Health Agents
Title（参考訳）: ESL-Bench: ヘルスエージェントのためのイベント駆動型合成縦断ベンチマーク
Authors: Chao Li, Cailiang Liu, Ang Gao, Kexin Deng, Shu Zhang, Langping Xu, Xiaotong Shi, Xionghao Ding, Jian Pei, Xun Jiang,
Abstract要約: ESLBenchは100人の合成ユーザを提供するイベント駆動合成フレームワークである。ツール,DBネイティブエージェント,メモリ拡張RAGでLLMにまたがる13の手法を評価した。
参考スコア（独自算出の注目度）: 10.567096101127886
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Longitudinal health agents must reason across multi-source trajectories that combine continuous device streams, sparse clinical exams, and episodic life events - yet evaluating them is hard: real-world data cannot be released at scale, and temporally grounded attribution questions seldom admit definitive answers without structured ground truth. We present ESL-Bench, an event-driven synthesis framework and benchmark providing 100 synthetic users, each with a 1-5 year trajectory comprising a health profile, a multi-phase narrative plan, daily device measurements, periodic exam records, and an event log with explicit per-indicator impact parameters. Each indicator follows a baseline stochastic process driven by discrete events with sigmoid-onset, exponential-decay kernels under saturation and projection constraints; a hybrid pipeline delegates sparse semantic artifacts to LLM-based planning and dense indicator dynamics to algorithmic simulation with hard physiological bounds. Users are each paired with 100 evaluation queries across five dimensions - Lookup, Trend, Comparison, Anomaly, Explanation - stratified into Easy, Medium, and Hard tiers, with all ground-truth answers programmatically computable from the recorded event-indicator relationships. Evaluating 13 methods spanning LLMs with tools, DB-native agents, and memory-augmented RAG, we find that DB agents (48-58%) substantially outperform memory RAG baselines (30-38%), with the gap concentrated on Comparison and Explanation queries where multi-hop reasoning and evidence attribution are required.
Abstract（参考訳）: 縦断的な健康エージェントは、連続したデバイスストリーム、スパースな臨床検査、そしてエピソードなライフイベントを組み合わせた複数のソースの軌跡を理にかわなければならない。 ESL-Benchは,100人の合成ユーザに対して,健康プロファイル,多段階の物語計画,日次装置計測,定期試験記録,明示的な指標ごとのインパクトパラメータを持つイベントログを含む1～5年の軌跡を持つイベント駆動合成フレームワークおよびベンチマークである。それぞれの指標は、飽和および投射制約の下でシグミドオンセットで指数デカイなカーネルを持つ離散事象によって駆動されるベースライン確率過程に従っており、ハイブリッドパイプラインはスパースなセマンティックアーティファクトをLSMベースの計画と密度の高いインジケータダイナミクスに委譲し、硬い生理的境界を持つアルゴリズムシミュレーションに委譲する。ユーザはそれぞれ、ルックアップ、トレンド、比較、異常、説明(Explaination)という5つの次元で100の評価クエリをペアリングする。ツール,DBネイティブエージェント,メモリ拡張RAGでLLMにまたがる13の手法を評価すると,DBエージェント(48～58%)がメモリRAGベースライン(30～38%)を大幅に上回っていることがわかった。

関連論文リスト

Can LLM Agents Generate Real-World Evidence? Evaluating Observational Studies in Medical Databases [17.35673829214932]
我々は、MIMIC-IVをベースとしたRWE-benchについて、ピアレビューによる観察研究から紹介する。各タスクは対応する研究プロトコルを基準として提供し、エージェントは実際のデータベースで実験を行う必要がある。 162タスク全体では、タスク成功率は低く、最高のエージェントが39.9%、最高のオープンソースモデルが30.4%に達する。
論文参考訳（メタデータ） (2026-03-24T03:50:34Z)
Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity [43.338311770275745]
本報告では, YOLOv11の合成増強の制御された評価法について述べる。実際のトレーニングスプリットの10%から150%の増大率に対して, GAN, 拡散, ハイブリッドベースの6つのジェネレータをベンチマークした。データセット生成/拡張設定毎に、マッチしたサイズのブートストラッププロトコルで事前トレーニングデータセットメトリクスを計算する。
論文参考訳（メタデータ） (2026-02-20T03:02:36Z)
AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文参考訳（メタデータ） (2026-01-28T16:05:44Z)
Real-Time Health Analytics Using Ontology-Driven Complex Event Processing and LLM Reasoning: A Tuberculosis Case Study [4.0954316720608634]
本研究では,複合イベント処理(CEP)と大規模言語モデル(LLM)を統合したオントロジー対応リアルタイム分析フレームワークを提案する。 CEPエンジンが臨床的に重要なイベントパターンを検出するApache KafkaとSpark Streamingを使用して、患者のデータを取り込み、処理する。このフレームワークは、1,000人の結核患者(TB)のデータセットをユースケースとして評価し、低レイテンシなイベント検出、スケーラブルな推論、高モデルパフォーマンスを実証する。
論文参考訳（メタデータ） (2025-10-05T14:21:46Z)
A Graph-Based Test-Harness for LLM Evaluation [0.8164433158925593]
我々は400以上の質問に対して、ダイナミックで体系的な医療ガイドラインのベンチマークのプロトタイプを初めて提示する。我々はWHO IMCIハンドブックを200以上のノードを持つ有向グラフに変換し、年齢別シナリオを含む質問を生成する。症状認識には優れたモデルがあるが,重症度,治療プロトコル,フォローアップケアに苦慮している。
論文参考訳（メタデータ） (2025-08-28T14:10:59Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
A Sample Efficient Conditional Independence Test in the Presence of Discretization [54.047334792855345]
離散化されたデータに直接条件付き独立テスト(CI)は、誤った結論につながる可能性がある。最近の進歩は、観測データをバイナライズすることで、潜伏変数間の適切なCI関係を推測することを目指している。そこで本研究では,バイナライゼーションプロセスに依存しないサンプル効率のCIテストを提案する。
論文参考訳（メタデータ） (2025-06-10T12:41:26Z)
Human-inspired Episodic Memory for Infinite Context LLMs [20.265521531429943]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、それでも広範なコンテキストの処理に苦戦している。 EM-LLMは,ヒトのエピソード記憶と事象認識の重要な側面をLCMに組み込む新しい手法である。 EM-LLMは、ベイジアン・サプライズとグラフ理論境界修正の組み合わせを用いて、トークンの列をコヒーレントなエピソード事象に整理する。
論文参考訳（メタデータ） (2024-07-12T17:34:03Z)
Soft Random Sampling: A Theoretical and Empirical Analysis [59.719035355483875]
ソフトランダムサンプリング(SRS)は、大量のデータを扱う際に、効率的なディープニューラルネットワークに対して単純だが効果的なアプローチである。それは、各エポックに設定された各データセットから、ランダムに置換された均一な速度を選択する。実世界の産業規模で重要な競争力を持つ、強力で競争力のある戦略であることが示されている。
論文参考訳（メタデータ） (2023-11-21T17:03:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。