論文の概要: Numbers Matter! Bringing Quantity-awareness to Retrieval Systems
- arxiv url: http://arxiv.org/abs/2407.10283v1
- Date: Sun, 14 Jul 2024 17:56:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 18:49:26.827183
- Title: Numbers Matter! Bringing Quantity-awareness to Retrieval Systems
- Title(参考訳): 数値が重要! 検索システムに量認識をもたらす
- Authors: Satya Almasian, Milena Bruseva, Michael Gertz,
- Abstract要約: 本稿では,2つの量対応ランキング技術を導入し,その量とテキストの内容のランク付けを共同で行う。
これらの技術は、利用可能な検索システムに量情報を導入し、数値条件が等しく、より大きく、より少ないクエリに対処することができる。
提案モデルの有効性を評価するため,ファイナンスと医療の領域に2つの新しい量対応ベンチマークデータセットを導入する。
- 参考スコア(独自算出の注目度): 5.7486903101353715
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Quantitative information plays a crucial role in understanding and interpreting the content of documents. Many user queries contain quantities and cannot be resolved without understanding their semantics, e.g., ``car that costs less than $10k''. Yet, modern search engines apply the same ranking mechanisms for both words and quantities, overlooking magnitude and unit information. In this paper, we introduce two quantity-aware ranking techniques designed to rank both the quantity and textual content either jointly or independently. These techniques incorporate quantity information in available retrieval systems and can address queries with numerical conditions equal, greater than, and less than. To evaluate the effectiveness of our proposed models, we introduce two novel quantity-aware benchmark datasets in the domains of finance and medicine and compare our method against various lexical and neural models. The code and data are available under https://github.com/satya77/QuantityAwareRankers.
- Abstract(参考訳): 量的情報は、文書の内容を理解し、解釈する上で重要な役割を果たす。
多くのユーザクエリには量が含まれており、セマンティクスを理解せずには解決できない。
しかし、現代の検索エンジンは、単語と量の両方に同じランキング機構を適用し、大きさと単位情報を見渡す。
本稿では,文章の量と内容のランク付けを共同あるいは独立に行うための2つの量対応ランキング手法を提案する。
これらの技術は、利用可能な検索システムに量情報を導入し、数値条件が等しく、より大きく、より少ないクエリに対処することができる。
提案モデルの有効性を評価するため,金融・医療分野に2つの新しい量対応ベンチマークデータセットを導入し,様々な語彙モデルとニューラルモデルとの比較を行った。
コードとデータはhttps://github.com/satya77/QuantityAwareRankersで入手できる。
関連論文リスト
- SPIQA: A Dataset for Multimodal Question Answering on Scientific Papers [43.18330795060871]
SPIQAは、科学研究論文の文脈内で複雑な図形や表を解釈するために設計されたデータセットである。
データセット作成には自動および手動のキュレーションを使用します。
SPIQAは270Kの質問をトレーニング、検証、3つの異なる評価分割に分割する。
論文 参考訳(メタデータ) (2024-07-12T16:37:59Z) - Bridging Research and Readers: A Multi-Modal Automated Academic Papers
Interpretation System [47.13932723910289]
本稿では,3段階のプロセス段階を有するオープンソースマルチモーダル自動学術論文解釈システム(MMAPIS)を紹介する。
ドキュメントからプレーンテキストや表や図を別々に抽出するために、ハイブリッドなモダリティ前処理とアライメントモジュールを使用している。
すると、この情報は彼らが属するセクション名に基づいて調整され、同じセクション名を持つデータが同じセクションの下に分類される。
抽出されたセクション名を用いて、記事を短いテキストセグメントに分割し、LSMを通してセクション内とセクション間の特定の要約を容易にする。
論文 参考訳(メタデータ) (2024-01-17T11:50:53Z) - Embrace Divergence for Richer Insights: A Multi-document Summarization Benchmark and a Case Study on Summarizing Diverse Information from News Articles [136.84278943588652]
同一イベントを含む複数のニュース記事において遭遇する多様な情報を要約する新しい課題を提案する。
この作業を容易にするために、多様な情報を特定するためのデータ収集スキーマの概要と、DiverseSummというデータセットをキュレートした。
データセットには245のニュース記事が含まれており、各ストーリーは10のニュース記事からなり、人間公認の参照と組み合わせられる。
論文 参考訳(メタデータ) (2023-09-17T20:28:17Z) - Knowledge Graph Reasoning over Entities and Numerical Values [48.67312700426019]
数値属性値を含むクエリを記述するために,新しい数値変数と演算を導入する。
また、エンティティと数値を別のエンコード構造に符号化するためのNRN(Number Reasoning Network)のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-02T09:46:29Z) - CQE: A Comprehensive Quantity Extractor [2.2079886535603084]
テキストデータから包括的量抽出フレームワークを提案する。
値と単位の組み合わせ、量の振る舞い、量と関連する概念を効率的に検出する。
本フレームワークは, 依存解析と単位辞書を利用して, 検出された量の適切な正規化と標準化を実現する。
論文 参考訳(メタデータ) (2023-05-15T17:59:41Z) - DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System
for Multilingual Named Entity Recognition [94.90258603217008]
MultiCoNER RNum2共有タスクは、細粒度でノイズの多いシナリオにおいて、多言語の名前付きエンティティ認識(NER)に取り組むことを目的としている。
MultiCoNER RNum1の以前のトップシステムは、ナレッジベースまたはガゼッタを組み込んでいる。
細粒度多言語NERのための統一検索拡張システム(U-RaNER)を提案する。
論文 参考訳(メタデータ) (2023-05-05T16:59:26Z) - Exposing Query Identification for Search Transparency [69.06545074617685]
本稿では,検索システムの2つのクラスにおいて,クエリとドキュメントの役割を逆転させることにより,検索タスクとしてのEQIの実現可能性について検討する。
本研究では,クエリのランク付けの質を評価するための評価基準を導出するとともに,近似EQIの様々な実践的側面に着目した経験的分析を行う。
論文 参考訳(メタデータ) (2021-10-14T20:19:27Z) - Online Learning of Optimally Diverse Rankings [63.62764375279861]
ユーザのフィードバックのみに基づいて最適なリストを効率よく学習するアルゴリズムを提案する。
我々は、$T$クエリの後に、LDRの後悔は$O((N-L)log(T))$としてスケールする。
論文 参考訳(メタデータ) (2021-09-13T12:13:20Z) - Query Understanding via Intent Description Generation [75.64800976586771]
問合せ理解のためのQ2ID(Query-to-Intent-Description)タスクを提案する。
クエリとその記述を利用してドキュメントの関連性を計算する既存のランキングタスクとは異なり、Q2IDは自然言語のインテント記述を生成するための逆タスクである。
Q2IDタスクにおける複数の最先端生成モデルとの比較により,本モデルの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-25T08:56:40Z) - Extending Text Informativeness Measures to Passage Interestingness
Evaluation (Language Model vs. Word Embedding) [1.2998637003026272]
本稿では、インフォマティヴネスの概念をインフォマティヴネスの一般化として定義する。
次に、この一般化に対応するために、アートインフォーマティヴネス対策の状態を調査する。
CLEF-INEX Tweet Contextualization 2012 Logarithm similarity measure が最適であることを示す。
論文 参考訳(メタデータ) (2020-04-14T18:22:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。