論文の概要: LongBEL: Long-Context and Document-Consistent Biomedical Entity Linking
- arxiv url: http://arxiv.org/abs/2605.13451v1
- Date: Wed, 13 May 2026 12:47:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 23:30:28.046347
- Title: LongBEL: Long-Context and Document-Consistent Biomedical Entity Linking
- Title(参考訳): LongBEL: 長いコンテキストとドキュメントに一貫性のあるバイオメディカルエンティティリンク
- Authors: Adam Remaki, Xavier Tannier, Christel Gérardin,
- Abstract要約: LongBELはドキュメントレベルの生成フレームワークで、ドキュメントコンテキストと以前の予測のメモリを組み合わせる。
LongBELは文レベルの生成ベースラインよりも改善されており、概念がドキュメント内で頻繁に再帰するデータセットで最大の利益を得ている。
ローカル、グローバル、メモリベースのバリエーションのアンサンブルは、すべてのベンチマークで最高の結果を得る。
- 参考スコア(独自算出の注目度): 1.809722301908016
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Biomedical entity linking maps textual mentions to concepts in structured knowledge bases such as UMLS or SNOMED CT. Most existing systems link each mention independently, using only the mention or its surrounding sentence. This ignores dependencies between mentions in the same document and can lead to inconsistent predictions, especially when the same concept appears under different surface forms. We introduce LongBEL, a document-level generative framework that combines full-document context with a memory of previous predictions. To make this memory robust, LongBEL is trained with cross-validated predictions rather than gold labels, reducing the mismatch between training and inference and limiting cascading errors. Experiments on five biomedical benchmarks across English, French, and Spanish show that LongBEL improves over sentence-level generative baselines, with the largest gains on datasets where concepts frequently recur within documents. An ensemble of local, global, and memory-based variants achieves the best results across all benchmarks. Further analysis shows that the largest gains occur on recurring concepts, suggesting that LongBEL mainly improves document-level consistency rather than isolated mention disambiguation.
- Abstract(参考訳): バイオメディカルエンティティリンクマップはUMLSやSNOMED CTのような構造化知識ベースの概念に言及する。
既存のシステムの多くは、参照またはその周辺文のみを使用して、それぞれの参照を独立してリンクする。
これは、同じ文書にある参照間の依存関係を無視し、特に同じ概念が異なる表面形式の下に現れるとき、一貫性のない予測につながる可能性がある。
本稿では,文書レベルの生成フレームワークであるLongBELを紹介する。
このメモリを堅牢にするため、LongBELはゴールドラベルではなくクロスバリデーション予測でトレーニングされ、トレーニングと推論のミスマッチを低減し、カスケードエラーを制限する。
英語、フランス語、スペイン語の5つのバイオメディカルベンチマークの実験によると、LongBELは文レベルの生成ベースラインよりも改善されており、ドキュメント内で概念が頻繁に再帰するデータセットで最大の利益を得ている。
ローカル、グローバル、メモリベースのバリエーションのアンサンブルは、すべてのベンチマークで最高の結果を得る。
さらなる分析により、再帰的な概念に対して最も大きな利得が生じることが示され、LongBELは主に文書レベルの一貫性を改善し、不明瞭さに言及するのではなく、改善していることが示唆された。
関連論文リスト
- BERAG: Bayesian Ensemble Retrieval-Augmented Generation for Knowledge-based Visual Question Answering [24.259268301904545]
検索拡張生成(RAG)による質問応答の一般的なアプローチは、文書を単一のコンテキストに制限し、それを言語モデルに渡して回答を生成することである。
この戦略は個々の文書の貢献を曖昧にし、帰属を難しくし、失業者の影響に寄与する。
本稿では,単一のコンテキストの組み合わせではなく,個々の検索文書に言語モデルを条件付けする新しいRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-24T16:01:19Z) - HCRE: LLM-based Hierarchical Classification for Cross-Document Relation Extraction with a Prediction-then-Verification Strategy [54.91468501159335]
文書間関係抽出 (RE) は, 異なる文書に存在する頭部尾部エンティティ間の関係を識別することを目的としている。
本稿では,各レベルでの多視点検証により信頼性を向上させる推論戦略を提案する。
論文 参考訳(メタデータ) (2026-04-09T07:55:27Z) - Panini: Continual Learning in Token Space via Structured Memory [4.979820180013486]
言語モデルは、トレーニングされていないコンテンツを推論するために、ますます使われています。
一般的なアプローチは検索拡張生成(RAG)であり、これは動詞の文書を(チャンクとして)外部に保存し、推論時に関連するサブセットのみを取得する。
本稿では,基本モデルを固定したままで,新たな経験を外部セマンティックメモリ状態に統合することで学習を行う,人間のような非パラメトリック連続学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-16T19:58:03Z) - Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding [49.26132236798123]
視覚言語モデル(VLM)は、文書理解における主要なアプローチになりつつある。
本稿では,粗いプロセスにおいて,検索者と4つの協調エージェントを編成するマルチエージェントフレームワークSLEUTHを提案する。
このフレームワークは、検索したページ内の重要なテキストおよび視覚的手がかりを特定し、テーブルやチャートなどの健全な視覚的エビデンスをフィルタし、クエリを分析して推論戦略を考案する。
論文 参考訳(メタデータ) (2025-11-28T03:09:40Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - HERA: Improving Long Document Summarization using Large Language Models with Context Packaging and Reordering [6.876612430571396]
HERAと呼ばれる新しい要約生成フレームワークを提案する。
まず、その意味構造によって長い文書をセグメンテーションし、同じ事象に関するテキストセグメントを検索し、最後にそれらを並べ替えて入力コンテキストを形成する。
実験の結果,HERAはROUGE,BERTScore,忠実度測定において基礎モデルよりも優れていた。
論文 参考訳(メタデータ) (2025-02-01T14:55:06Z) - REXEL: An End-to-end Model for Document-Level Relation Extraction and Entity Linking [11.374031643273941]
REXELは文書レベルcIE(DocIE)の共同作業のための高効率かつ高精度なモデルである
同様の環境では、競合する既存のアプローチよりも平均11倍高速です。
速度と精度の組み合わせにより、REXELはWebスケールで構造化された情報を抽出する正確なコスト効率のシステムとなる。
論文 参考訳(メタデータ) (2024-04-19T11:04:27Z) - Document Flattening: Beyond Concatenating Context for Document-Level
Neural Machine Translation [45.56189820979461]
Document Flattening(DocFlat)技術は、Flat-Batch Attention(FB)とNeural Context Gate(NCG)をTransformerモデルに統合する。
我々は、英語とドイツ語の翻訳のための3つのベンチマークデータセットに関する総合的な実験と分析を行う。
論文 参考訳(メタデータ) (2023-02-16T04:38:34Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - Long Document Summarization with Top-down and Bottom-up Inference [113.29319668246407]
本稿では、2つの側面の要約モデルを改善するための原則的推論フレームワークを提案する。
我々のフレームワークは、トップレベルが長距離依存性をキャプチャするドキュメントの階層的な潜在構造を前提としています。
本稿では,様々な要約データセットに対して提案手法の有効性を示す。
論文 参考訳(メタデータ) (2022-03-15T01:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。