論文の概要: SLIDE: Sliding Localized Information for Document Extraction
- arxiv url: http://arxiv.org/abs/2503.17952v1
- Date: Sun, 23 Mar 2025 06:00:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:31:28.452100
- Title: SLIDE: Sliding Localized Information for Document Extraction
- Title(参考訳): SLIDE:文書抽出のための局所情報スライディング
- Authors: Divyansh Singh, Manuel Nunez Martinez, Bonnie J. Dorr, Sonja Schmer Galunder,
- Abstract要約: 複数ウィンドウを重畳してローカルコンテキストを生成することで,長いドキュメントを処理するチャンキング手法であるSLIDE(Sliding Localized Information for Document extract)を紹介する。
GraphRAGのパフォーマンスが大幅に向上し、エンティティ抽出が24%向上し、英語の関係抽出が39%向上した。
低リソース言語であるAfrikaansでは、SLIDEはエンティティ抽出が49%増加し、関係抽出が82%改善した。
- 参考スコア(独自算出の注目度): 1.474945380093949
- License:
- Abstract: Constructing accurate knowledge graphs from long texts and low-resource languages is challenging, as large language models (LLMs) experience degraded performance with longer input chunks. This problem is amplified in low-resource settings where data scarcity hinders accurate entity and relationship extraction. Contextual retrieval methods, while improving retrieval accuracy, struggle with long documents. They truncate critical information in texts exceeding maximum context lengths of LLMs, significantly limiting knowledge graph construction. We introduce SLIDE (Sliding Localized Information for Document Extraction), a chunking method that processes long documents by generating local context through overlapping windows. SLIDE ensures that essential contextual information is retained, enhancing knowledge graph extraction from documents exceeding LLM context limits. It significantly improves GraphRAG performance, achieving a 24% increase in entity extraction and a 39% improvement in relationship extraction for English. For Afrikaans, a low-resource language, SLIDE achieves a 49% increase in entity extraction and an 82% improvement in relationship extraction. Furthermore, it improves upon state-of-the-art in question-answering metrics such as comprehensiveness, diversity and empowerment, demonstrating its effectiveness in multilingual and resource-constrained settings.
- Abstract(参考訳): 長いテキストと低リソース言語から正確な知識グラフを構築することは困難である。
この問題は、データの不足が正確なエンティティと関係抽出を妨げる低リソース設定で増幅される。
文脈的検索手法は、検索精度を向上しながら、長い文書と競合する。
彼らはLLMの最大文脈長を超えるテキストで臨界情報を減らし、知識グラフの構成を著しく制限した。
複数ウィンドウを重畳してローカルコンテキストを生成することで,長いドキュメントを処理するチャンキング手法であるSLIDE(Sliding Localized Information for Document extract)を紹介する。
SLIDEは、LLMコンテキスト限界を超える文書から知識グラフを抽出し、重要なコンテキスト情報が保持されることを保証する。
GraphRAGのパフォーマンスが大幅に向上し、エンティティ抽出が24%向上し、英語の関係抽出が39%向上した。
低リソース言語であるAfrikaansでは、SLIDEはエンティティ抽出が49%増加し、関係抽出が82%改善した。
さらに、包括性、多様性、エンパワーメントといった質問応答の最先端のメトリクスを改善し、多言語およびリソース制約された設定におけるその効果を示す。
関連論文リスト
- Understanding In-Context Machine Translation for Low-Resource Languages: A Case Study on Manchu [53.437954702561065]
In-context machine translation (MT) with large language model (LLMs) は低リソースMTにおいて有望な手法である。
本研究では,各資源とその品質が満州語による翻訳性能に与える影響を体系的に検討した。
結果から,良質な辞書や優れた並列例は有用であり,文法はほとんど役に立たないことが明らかとなった。
論文 参考訳(メタデータ) (2025-02-17T14:53:49Z) - Enhancing Code Generation for Low-Resource Languages: No Silver Bullet [55.39571645315926]
大規模言語モデル(LLM)は、プログラミング言語の構文、意味論、使用パターンを学ぶために、大規模で多様なデータセットに依存している。
低リソース言語では、そのようなデータの限られた可用性は、モデルを効果的に一般化する能力を損なう。
本稿では,低リソース言語におけるLLMの性能向上のためのいくつかの手法の有効性を実証研究する。
論文 参考訳(メタデータ) (2025-01-31T12:23:28Z) - Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。
この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。
提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文 参考訳(メタデータ) (2024-12-24T16:38:04Z) - Reducing Distraction in Long-Context Language Models by Focused Learning [6.803882766744194]
本稿では,大規模言語モデルの関連情報を識別する能力を高める新しい学習手法を提案する。
長いコンテキストで微調整を行う際、最も関連性の高いセグメントを抽出するために検索器を用いる。
次に、元のコンテキストと検索したサブコンテキストからの出力が密接に一致していることを明確にするために、補助的なコントラスト学習対象を導入する。
論文 参考訳(メタデータ) (2024-11-08T19:27:42Z) - Scaling Up Summarization: Leveraging Large Language Models for Long Text Extractive Summarization [0.27624021966289597]
本稿では,Large Language Models (LLM) を利用した抽出要約フレームワークであるEYEGLAXSを紹介する。
EYEGLAXSは、事実的および文法的整合性を保証するために抽出的な要約に焦点を当てている。
このシステムはPubMedやArXivといった有名なデータセットに新しいパフォーマンスベンチマークを設定する。
論文 参考訳(メタデータ) (2024-08-28T13:52:19Z) - Embedded Translations for Low-resource Automated Glossing [11.964276799347642]
我々は,線間グラフトテキストから抽出した組込み翻訳情報を用いて,ハードアテンショナル・ニューラル・モデルを強化する。
グロース出力を生成する文字レベルデコーダを提案する。
本結果は,システムの性能向上における翻訳情報の重要性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-03-13T02:23:13Z) - Semi-automatic Data Enhancement for Document-Level Relation Extraction
with Distant Supervision from Large Language Models [26.523153535336725]
ドキュメントレベルの関係抽出(DocRE)は、長いコンテキストから関係を抽出することを目的としている。
本稿では,大規模言語モデル (LLM) と自然言語推論 (NLI) モジュールを統合する手法を提案する。
DocGNREと呼ばれる拡張データセットを導入することで,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2023-11-13T13:10:44Z) - GlotLID: Language Identification for Low-Resource Languages [51.38634652914054]
GlotLID-M は広い範囲、信頼性、効率性のデシラタを満たす LID モデルである。
1665の言語を識別し、以前の作業に比べてカバー範囲が大幅に増加した。
論文 参考訳(メタデータ) (2023-10-24T23:45:57Z) - Low Resource Summarization using Pre-trained Language Models [1.26404863283601]
そこで本稿では,低リソースの要約に自己注意型トランスフォーマーベースアーキテクチャモデル(mBERT,mT5)を適用する手法を提案する。
適応的な要約モデル textiturT5 は、高リソース言語英語の最先端モデルに匹敵する評価スコア(最大46.35 ROUGE-1,77 BERTScore)で、低リソース言語の文脈情報を効果的にキャプチャすることができる。
論文 参考訳(メタデータ) (2023-10-04T13:09:39Z) - CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large
Language Models in 167 Languages [86.90220551111096]
大規模言語モデル(LLM)のトレーニングデータセットは、完全には公開されないことが多い。
我々は167言語で6.3兆のトークンを持つ相当な多言語データセットであるCulturaXを紹介する。
論文 参考訳(メタデータ) (2023-09-17T23:49:10Z) - Harnessing Explanations: LLM-to-LM Interpreter for Enhanced
Text-Attributed Graph Representation Learning [51.90524745663737]
重要なイノベーションは、機能として説明を使用することで、下流タスクにおけるGNNのパフォーマンス向上に利用できます。
提案手法は、確立されたTAGデータセットの最先端結果を実現する。
本手法はトレーニングを著しく高速化し,ogbn-arxivのベースラインに最も近い2.88倍の改善を実現した。
論文 参考訳(メタデータ) (2023-05-31T03:18:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。