論文の概要: Distributed Subweb Specifications for Traversing the Web
- arxiv url: http://arxiv.org/abs/2302.14411v2
- Date: Mon, 27 Mar 2023 07:58:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 00:14:34.583051
- Title: Distributed Subweb Specifications for Traversing the Web
- Title(参考訳): webを横切るための分散サブweb仕様
- Authors: Bart Bogaerts, Bas Ketsman, Younes Zeboudj, Heba Aamer, Ruben Taelman,
Ruben Verborgh
- Abstract要約: Link Traversal-based Query Processing (ltqp) は理論上興味深いが実用的ではない技術である。
本稿では、データパブリッシャーが興味のある情報源を提案し、データ消費者を関連性のある信頼できるデータへと導くことができるべきだと論じる。
- 参考スコア(独自算出の注目度): 9.424582837721891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Link Traversal-based Query Processing (ltqp), in which a sparql query is
evaluated over a web of documents rather than a single dataset, is often seen
as a theoretically interesting yet impractical technique. However, in a time
where the hypercentralization of data has increasingly come under scrutiny, a
decentralized Web of Data with a simple document-based interface is appealing,
as it enables data publishers to control their data and access rights. While
ltqp allows evaluating complex queries over such webs, it suffers from
performance issues (due to the high number of documents containing data) as
well as information quality concerns (due to the many sources providing such
documents). In existing ltqp approaches, the burden of finding sources to query
is entirely in the hands of the data consumer. In this paper, we argue that to
solve these issues, data publishers should also be able to suggest sources of
interest and guide the data consumer towards relevant and trustworthy data. We
introduce a theoretical framework that enables such guided link traversal and
study its properties. We illustrate with a theoretic example that this can
improve query results and reduce the number of network requests. We evaluate
our proposal experimentally on a virtual linked web with specifications and
indeed observe that not just the data quality but also the efficiency of
querying improves.
Under consideration in Theory and Practice of Logic Programming (TPLP).
- Abstract(参考訳): 単一のデータセットではなく、ドキュメントのweb上でsparqlクエリが評価されるリンクトラバーサルベースのクエリ処理(ltqp)は、理論上興味深いが非現実的だと見なされることが多い。
しかし、データの分散化がますます精査される中で、シンプルなドキュメントベースのインターフェースを備えた分散データWebは、データパブリッシャが自身のデータとアクセス権をコントロールすることを可能にし、魅力的である。
ltqpはそのようなWeb上で複雑なクエリの評価を可能にするが、パフォーマンス上の問題(データを含むドキュメントの多さによる)と情報品質の懸念(そのようなドキュメントを提供する多くの情報源による)に悩まされている。
既存のltqpアプローチでは、クエリソースを見つけることの負担は、データコンシューマの手に委ねられている。
本稿では,これらの問題を解決するためには,データパブリッシャが興味のある情報源を示唆し,データ消費者を信頼に値するデータへと導くことも可能であるべきであると論じる。
このようなリンクトラバーサルの導出を可能にする理論的枠組みを導入し,その特性について検討する。
これはクエリ結果を改善し、ネットワーク要求数を削減できるという理論的な例を示します。
提案提案は,仕様付き仮想リンクWeb上で実験的に評価し,データ品質だけでなく,クエリの効率も向上することを確認した。
論理プログラミングの理論と実践(tplp)における考察。
関連論文リスト
- BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - Efficient Document Ranking with Learnable Late Interactions [73.41976017860006]
クロスエンコーダ(CE)とデュアルエンコーダ(DE)モデルは,情報検索におけるクエリドキュメント関連性の2つの基本的なアプローチである。
関連性を予測するため、CEモデルは共同クエリドキュメントの埋め込みを使用し、DEモデルは分解クエリとドキュメントの埋め込みを維持している。
近年、DEM構造と軽量スコアラを用いて、より好ましいレイテンシ品質のトレードオフを実現するために、遅延相互作用モデルが提案されている。
論文 参考訳(メタデータ) (2024-06-25T22:50:48Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - Fact Checking Beyond Training Set [64.88575826304024]
本稿では,レトリバーリーダが,あるドメインのラベル付きデータに基づいてトレーニングし,別のドメインで使用する場合,性能劣化に悩まされることを示す。
本稿では,レトリバー成分を分散シフトに対して頑健にするための逆アルゴリズムを提案する。
次に、これらのデータセットから8つの事実チェックシナリオを構築し、モデルと強力なベースラインモデルのセットを比較します。
論文 参考訳(メタデータ) (2024-03-27T15:15:14Z) - WebCiteS: Attributed Query-Focused Summarization on Chinese Web Search Results with Citations [34.99831757956635]
我々は,属性付きクエリ中心要約 (AQFS) のタスクを定式化するとともに,7kの人称注釈の要約を引用した中国語データセットであるWebCiteSを提示する。
これらの課題に対処するために、詳細なメトリクスを開発し、自動評価器が文を細かな検証のためにサブステートに分解できるようにする。
論文 参考訳(メタデータ) (2024-03-04T07:06:41Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Improving Query Representations for Dense Retrieval with Pseudo
Relevance Feedback [29.719150565643965]
本稿では,疑似関連性フィードバック(PRF)を用いて高密度検索のためのクエリ表現を改善する新しいクエリエンコーダであるANCE-PRFを提案する。
ANCE-PRF は BERT エンコーダを使用し、検索モデルである ANCE からクエリとトップ検索されたドキュメントを消費し、関連ラベルから直接クエリの埋め込みを生成する。
PRFエンコーダは、学習された注意機構でノイズを無視しながら、PRF文書から関連および補完的な情報を効果的にキャプチャする。
論文 参考訳(メタデータ) (2021-08-30T18:10:26Z) - QBSUM: a Large-Scale Query-Based Document Summarization Dataset from
Real-world Applications [20.507631900617817]
提案するQBSUMは,中国語クエリベースの文書要約処理のための49,000以上のデータサンプルからなる高品質な大規模データセットである。
また,タスクに対する教師なしおよび教師なしの複数のソリューションを提案し,オフライン実験とオンラインA/Bテストの両方を通して,高速な推論と優れた性能を示す。
論文 参考訳(メタデータ) (2020-10-27T07:30:04Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。