論文の概要: Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching
- arxiv url: http://arxiv.org/abs/2202.13959v1
- Date: Wed, 23 Feb 2022 05:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 12:31:59.508765
- Title: Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching
- Title(参考訳): 深部検索型ドキュメント指向データベースのための半構造化クエリグラウンドリングとその受信およびPOIマッチングへの応用
- Authors: Geewook Kim, Wonseok Hwang, Minjoon Seo, Seunghyun Park
- Abstract要約: 半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
- 参考スコア(独自算出の注目度): 23.52046767195031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-structured query systems for document-oriented databases have many real
applications. One particular application that we are interested in is matching
each financial receipt image with its corresponding place of interest (POI,
e.g., restaurant) in the nationwide database. The problem is especially
challenging in the real production environment where many similar or incomplete
entries exist in the database and queries are noisy (e.g., errors in optical
character recognition). In this work, we aim to address practical challenges
when using embedding-based retrieval for the query grounding problem in
semi-structured data. Leveraging recent advancements in deep language encoding
for retrieval, we conduct extensive experiments to find the most effective
combination of modules for the embedding and retrieval of both query and
database entries without any manually engineered component. The proposed model
significantly outperforms the conventional manual pattern-based model while
requiring much less development and maintenance cost. We also discuss some core
observations in our experiments, which could be helpful for practitioners
working on a similar problem in other domains.
- Abstract(参考訳): ドキュメント指向データベースのための半構造化クエリシステムは、多くの実アプリケーションを持っている。
私たちが興味を持っている特定のアプリケーションの一つは、各金融レシートイメージと対応する利息の場所(例えばレストラン)を全国的なデータベースにマッチさせることです。
この問題は、データベースに類似または不完全なエントリが多数存在し、クエリがノイズ(例えば、光学的文字認識のエラー)である実運用環境では特に困難である。
本研究では,半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的とする。
検索用深層言語エンコーディングの最近の進歩を活かし,手作業で設計したコンポーネントを使わずにクエリとデータベースのエントリの埋め込みと検索を行うためのモジュールの最も効果的な組み合わせを見つけるための広範囲な実験を行った。
提案モデルは,従来の手作業によるパターンベースモデルを大きく上回っているが,開発コストやメンテナンスコストは少ない。
実験の中核的な観察についても論じており、他の領域で同様の問題に取り組む実践者にも役立ちます。
関連論文リスト
- BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。
BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。
BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文 参考訳(メタデータ) (2024-10-01T15:11:24Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。
DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。
リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文 参考訳(メタデータ) (2024-06-23T05:02:21Z) - STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。
本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。
多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文 参考訳(メタデータ) (2024-04-19T22:54:54Z) - Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。
まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。
そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文 参考訳(メタデータ) (2024-04-03T10:05:47Z) - SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文 参考訳(メタデータ) (2023-08-15T11:45:34Z) - AskYourDB: An end-to-end system for querying and visualizing relational
databases using natural language [0.0]
複雑な自然言語をSQLに変換するという課題に対処する意味解析手法を提案する。
我々は、モデルが本番環境にデプロイされたときに重要な部分を占める様々な前処理と後処理のステップによって、最先端のモデルを修正した。
製品がビジネスで利用できるようにするために、クエリ結果に自動視覚化フレームワークを追加しました。
論文 参考訳(メタデータ) (2022-10-16T13:31:32Z) - Towards a Natural Language Query Processing System [0.0]
本稿では,自然言語クエリインタフェースとバックエンド関係データベースの設計と開発について報告する。
この研究の斬新さは、自然言語クエリを構造化クエリ言語に変換するために必要なメタデータを格納するために、グラフデータベースを中間層として定義することにある。
サンプルクエリの翻訳結果は90%の精度で得られた。
論文 参考訳(メタデータ) (2020-09-25T19:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。