論文の概要: Distributed Subweb Specifications for Traversing the Web
- arxiv url: http://arxiv.org/abs/2302.14411v1
- Date: Tue, 28 Feb 2023 08:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-01 17:18:04.786112
- Title: Distributed Subweb Specifications for Traversing the Web
- Title(参考訳): webを横切るための分散サブweb仕様
- Authors: Bart Bogaerts, Bas Ketsman, Younes Zeboudj, Heba Aamer, Ruben Taelman,
Ruben Verborgh
- Abstract要約: Link Traversal-based Query Processing (ltqp) は理論上興味深いが実用的ではない技術である。
本稿では、データパブリッシャーが興味のある情報源を提案し、データ消費者を関連性のある信頼できるデータへと導くことができるべきだと論じる。
- 参考スコア(独自算出の注目度): 9.424582837721891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Link Traversal-based Query Processing (ltqp), in which a sparql query is
evaluated over a web of documents rather than a single dataset, is often seen
as a theoretically interesting yet impractical technique. However, in a time
where the hypercentralization of data has increasingly come under scrutiny, a
decentralized Web of Data with a simple document-based interface is appealing,
as it enables data publishers to control their data and access rights. While
ltqp allows evaluating complex queries over such webs, it suffers from
performance issues (due to the high number of documents containing data) as
well as information quality concerns (due to the many sources providing such
documents). In existing ltqp approaches, the burden of finding sources to query
is entirely in the hands of the data consumer. In this paper, we argue that to
solve these issues, data publishers should also be able to suggest sources of
interest and guide the data consumer towards relevant and trustworthy data. We
introduce a theoretical framework that enables such guided link traversal and
study its properties. We illustrate with a theoretic example that this can
improve query results and reduce the number of network requests. We evaluate
our proposal experimentally on a virtual linked web with specifications and
indeed observe that not just the data quality but also the efficiency of
querying improves.
Under consideration in Theory and Practice of Logic Programming (TPLP).
- Abstract(参考訳): 単一のデータセットではなく、ドキュメントのweb上でsparqlクエリが評価されるリンクトラバーサルベースのクエリ処理(ltqp)は、理論上興味深いが非現実的だと見なされることが多い。
しかし、データの分散化がますます精査される中で、シンプルなドキュメントベースのインターフェースを備えた分散データWebは、データパブリッシャが自身のデータとアクセス権をコントロールすることを可能にし、魅力的である。
ltqpはそのようなWeb上で複雑なクエリの評価を可能にするが、パフォーマンス上の問題(データを含むドキュメントの多さによる)と情報品質の懸念(そのようなドキュメントを提供する多くの情報源による)に悩まされている。
既存のltqpアプローチでは、クエリソースを見つけることの負担は、データコンシューマの手に委ねられている。
本稿では,これらの問題を解決するためには,データパブリッシャが興味のある情報源を示唆し,データ消費者を信頼に値するデータへと導くことも可能であるべきであると論じる。
このようなリンクトラバーサルの導出を可能にする理論的枠組みを導入し,その特性について検討する。
これはクエリ結果を改善し、ネットワーク要求数を削減できるという理論的な例を示します。
提案提案は,仕様付き仮想リンクWeb上で実験的に評価し,データ品質だけでなく,クエリの効率も向上することを確認した。
論理プログラミングの理論と実践(tplp)における考察。
関連論文リスト
- WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search
Results with Citations [36.314460206807745]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Mixed-modality Representation Learning and Pre-training for Joint
Table-and-Text Retrieval in OpenQA [85.17249272519626]
最適化された OpenQA Table-Text Retriever (OTTeR) を提案する。
検索中心の混合モード合成事前学習を行う。
OTTeRはOTT-QAデータセット上でのテーブル・アンド・テキスト検索の性能を大幅に改善する。
論文 参考訳(メタデータ) (2022-10-11T07:04:39Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - Data Augmentation for Abstractive Query-Focused Multi-Document
Summarization [129.96147867496205]
2つのQMDSトレーニングデータセットを提示し,2つのデータ拡張手法を用いて構築する。
これらの2つのデータセットは相補的な性質を持ち、すなわちQMDSCNNは実際のサマリを持つが、クエリはシミュレートされる。
組み合わせたデータセット上にエンドツーエンドのニューラルネットワークモデルを構築し、DUCデータセットに最新の転送結果をもたらします。
論文 参考訳(メタデータ) (2021-03-02T16:57:01Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z) - MIRA: Leveraging Multi-Intention Co-click Information in Web-scale
Document Retrieval using Deep Neural Networks [5.963438927897287]
産業Web検索におけるディープリコールモデルの問題について検討する。
ウェブスケールのマルチインテンション共同クリック文書グラフを提案する。
また,Bertとグラフアテンションネットワークに基づく符号化フレームワークMIRAを提案する。
論文 参考訳(メタデータ) (2020-07-03T06:32:48Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。