論文の概要: Enhancing Semantic Document Retrieval- Employing Group Steiner Tree Algorithm with Domain Knowledge Enrichment
- arxiv url: http://arxiv.org/abs/2508.20543v1
- Date: Thu, 28 Aug 2025 08:29:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-29 18:12:02.22651
- Title: Enhancing Semantic Document Retrieval- Employing Group Steiner Tree Algorithm with Domain Knowledge Enrichment
- Title(参考訳): 意味的文書検索の強化-ドメイン知識に富んだグループステイナツリーアルゴリズム
- Authors: Apurva Kulkarni, Chandrashekar Ramanathan, Vinu E Venugopal,
- Abstract要約: 本研究は,多目的アルゴリズム「グループスタイナーツリーを用いた意味に基づく概念検索」の開発に焦点をあてる。
提案アルゴリズムはドメイン情報を組み込んでセマンティック・アウェア・ナレッジ表現とデータアクセスを強化する。
SemDRシステムの有効性を評価するために、170の現実世界の検索クエリからなるベンチマークを用いて性能評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Retrieving pertinent documents from various data sources with diverse characteristics poses a significant challenge for Document Retrieval Systems. The complexity of this challenge is further compounded when accounting for the semantic relationship between data and domain knowledge. While existing retrieval systems using semantics (usually represented as Knowledge Graphs created from open-access resources and generic domain knowledge) hold promise in delivering relevant outcomes, their precision may be compromised due to the absence of domain-specific information and reliance on outdated knowledge sources. In this research, the primary focus is on two key contributions- a) the development of a versatile algorithm- 'Semantic-based Concept Retrieval using Group Steiner Tree' that incorporates domain information to enhance semantic-aware knowledge representation and data access, and b) the practical implementation of the proposed algorithm within a document retrieval system using real-world data. To assess the effectiveness of the SemDR system, research work conducts performance evaluations using a benchmark consisting of 170 real-world search queries. Rigorous evaluation and verification by domain experts are conducted to ensure the validity and accuracy of the results. The experimental findings demonstrate substantial advancements when compared to the baseline systems, with precision and accuracy achieving levels of 90% and 82% respectively, signifying promising improvements.
- Abstract(参考訳): 多様な特徴を持つ様々なデータソースから関連するドキュメントを取得することは、ドキュメント検索システムにとって重要な課題である。
この課題の複雑さは、データとドメイン知識のセマンティックな関係を考慮するとさらに複雑になる。
セマンティクスを用いた既存の検索システム(通常、オープンアクセスリソースとジェネリックドメイン知識から生成される知識グラフ)は、関連する結果をもたらすことを約束するが、それらの精度は、ドメイン固有の情報がないことと、時代遅れの知識ソースに依存しているため、損なわれる可能性がある。
本研究の主な焦点は,2つの重要なコントリビューションである。
a)多目的アルゴリズムの開発-「グループステイナーツリーを用いた意味に基づく概念検索」は、ドメイン情報を組み込んで意味認識の知識表現とデータアクセスを強化する。
b)実世界のデータを用いた文書検索システムにおける提案アルゴリズムの実践的実装
SemDRシステムの有効性を評価するために、170の現実世界の検索クエリからなるベンチマークを用いて性能評価を行う。
ドメインの専門家による厳密な評価と検証を行い、結果の妥当性と正確性を保証する。
実験の結果, ベースラインシステムと比較して, 精度と精度が90%, 精度が82%に向上し, 有望な改善が認められた。
関連論文リスト
- Divide-Then-Align: Honest Alignment based on the Knowledge Boundary of RAG [51.120170062795566]
本稿では,問合せが知識境界外にある場合の"I don't know"で応答する機能を備えたRAGシステムを実現するためのDTAを提案する。
DTAは適切な棄権と精度のバランスをとり、検索強化システムの信頼性と信頼性を高める。
論文 参考訳(メタデータ) (2025-05-27T08:21:21Z) - Semantic Synergy: Unlocking Policy Insights and Learning Pathways Through Advanced Skill Mapping [0.0]
本研究では,現在最先端の自然言語処理,セマンティック埋め込み,効率的な検索技術に基づく包括的システムを提案する。
システムは複数の文書から正規化能力を自動的に抽出し集約する。
認知能力、職業プロファイル、関連する学習コースの強い関係を創出する。
論文 参考訳(メタデータ) (2025-03-13T06:41:26Z) - Enhancing Data Integrity through Provenance Tracking in Semantic Web Frameworks [1.3597551064547502]
SURROUND Australia Pty Ltdは、PROVデータモデル(PROV-DM)とそのセマンティックWeb変種であるPROV-Oの革新的な適用例を実証している。
論文では、包括的な実績データ、堅牢なバリデーション、トレーサビリティ、知識推論をキャプチャする同社のアーキテクチャを強調している。
論文 参考訳(メタデータ) (2025-01-12T16:13:27Z) - Exploring Information Retrieval Landscapes: An Investigation of a Novel Evaluation Techniques and Comparative Document Splitting Methods [0.0]
本研究では, 教科書の構造的性質, 記事の簡潔さ, 小説の物語的複雑さについて, 明確な検索戦略が必要であることを示した。
オープンソースのモデルを用いて,質問対と回答対の包括的データセットを生成する新しい評価手法を提案する。
評価には、SequenceMatcher、BLEU、METEOR、BERT Scoreなどの重み付けされたスコアを使用して、システムの正確性と妥当性を評価する。
論文 参考訳(メタデータ) (2024-09-13T02:08:47Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Gait Recognition in the Wild: A Large-scale Benchmark and NAS-based
Baseline [95.88825497452716]
歩行ベンチマークにより、研究コミュニティは高性能歩行認識システムの訓練と評価を行うことができる。
GREWは、野生における歩行認識のための最初の大規模データセットである。
SPOSGaitはNASベースの最初の歩行認識モデルである。
論文 参考訳(メタデータ) (2022-05-05T14:57:39Z) - Algorithmic Fairness Datasets: the Story so Far [68.45921483094705]
データ駆動アルゴリズムは、人々の幸福に直接影響し、批判的な決定をサポートするために、さまざまな領域で研究されている。
研究者のコミュニティは、既存のアルゴリズムの株式を調査し、新しいアルゴリズムを提案し、歴史的に不利な人口に対する自動意思決定のリスクと機会の理解を深めてきた。
公正な機械学習の進歩はデータに基づいており、適切に文書化された場合にのみ適切に使用できる。
残念なことに、アルゴリズムフェアネスコミュニティは、特定のリソース(オパシティ)に関する情報の不足と利用可能な情報の分散(スパーシティ)によって引き起こされる、集合的なデータドキュメント負債に悩まされている。
論文 参考訳(メタデータ) (2022-02-03T17:25:46Z) - Improving Named Entity Recognition with Attentive Ensemble of Syntactic
Information [36.03316058182617]
名前付きエンティティ認識(NER)は、セマンティック・セマンティック・セマンティック・プロパティに非常に敏感である。
本稿では,暗黙のアンサンブルによって異なるタイプの構文情報を活用することにより,NERを改善する。
6つの英語と中国語のベンチマークデータセットの実験結果から,提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-10-29T10:25:17Z) - Heterogeneous Network Representation Learning: A Unified Framework with
Survey and Benchmark [57.10850350508929]
我々は、異種ネットワーク埋め込み(HNE)に関する既存の研究を要約し、評価するための統一的なフレームワークを提供することを目指している。
最初のコントリビューションとして、既存のHNEアルゴリズムのメリットを体系的に分類し分析するための一般的なパラダイムを提供する。
第2のコントリビューションとして、さまざまなソースから、スケール、構造、属性/ラベルの可用性などに関するさまざまな特性を備えた4つのベンチマークデータセットを作成します。
第3のコントリビューションとして、13の人気のあるHNEアルゴリズムに対するフレンドリなインターフェースを作成し、複数のタスクと実験的な設定に対して、それらの全周比較を提供する。
論文 参考訳(メタデータ) (2020-04-01T03:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。