論文の概要: Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching
- arxiv url: http://arxiv.org/abs/2202.13959v1
- Date: Wed, 23 Feb 2022 05:32:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 12:31:59.508765
- Title: Semi-Structured Query Grounding for Document-Oriented Databases with
Deep Retrieval and Its Application to Receipt and POI Matching
- Title(参考訳): 深部検索型ドキュメント指向データベースのための半構造化クエリグラウンドリングとその受信およびPOIマッチングへの応用
- Authors: Geewook Kim, Wonseok Hwang, Minjoon Seo, Seunghyun Park
- Abstract要約: 半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。
クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。
提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
- 参考スコア(独自算出の注目度): 23.52046767195031
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semi-structured query systems for document-oriented databases have many real
applications. One particular application that we are interested in is matching
each financial receipt image with its corresponding place of interest (POI,
e.g., restaurant) in the nationwide database. The problem is especially
challenging in the real production environment where many similar or incomplete
entries exist in the database and queries are noisy (e.g., errors in optical
character recognition). In this work, we aim to address practical challenges
when using embedding-based retrieval for the query grounding problem in
semi-structured data. Leveraging recent advancements in deep language encoding
for retrieval, we conduct extensive experiments to find the most effective
combination of modules for the embedding and retrieval of both query and
database entries without any manually engineered component. The proposed model
significantly outperforms the conventional manual pattern-based model while
requiring much less development and maintenance cost. We also discuss some core
observations in our experiments, which could be helpful for practitioners
working on a similar problem in other domains.
- Abstract(参考訳): ドキュメント指向データベースのための半構造化クエリシステムは、多くの実アプリケーションを持っている。
私たちが興味を持っている特定のアプリケーションの一つは、各金融レシートイメージと対応する利息の場所(例えばレストラン)を全国的なデータベースにマッチさせることです。
この問題は、データベースに類似または不完全なエントリが多数存在し、クエリがノイズ(例えば、光学的文字認識のエラー)である実運用環境では特に困難である。
本研究では,半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的とする。
検索用深層言語エンコーディングの最近の進歩を活かし,手作業で設計したコンポーネントを使わずにクエリとデータベースのエントリの埋め込みと検索を行うためのモジュールの最も効果的な組み合わせを見つけるための広範囲な実験を行った。
提案モデルは,従来の手作業によるパターンベースモデルを大きく上回っているが,開発コストやメンテナンスコストは少ない。
実験の中核的な観察についても論じており、他の領域で同様の問題に取り組む実践者にも役立ちます。
関連論文リスト
- Improving Retrieval in Theme-specific Applications using a Corpus
Topical Taxonomy [52.426623750562335]
ToTER (Topical Taxonomy Enhanced Retrieval) フレームワークを紹介する。
ToTERは、クエリとドキュメントの中心的なトピックを分類学のガイダンスで識別し、そのトピックの関連性を利用して、欠落したコンテキストを補う。
プラグイン・アンド・プレイのフレームワークとして、ToTERは様々なPLMベースのレトリバーを強化するために柔軟に使用できる。
論文 参考訳(メタデータ) (2024-03-07T02:34:54Z) - Computational Complexity of Preferred Subset Repairs on Data-Graphs [2.4186604326116874]
本稿では,標準サブセット修復セマンティクスに基づいて,重み,マルチセット,セットベースの優先度レベルを組み込んだ選好基準を提案する。
筆者らは最も一般的な補修作業について検討し、選好基準が適用できない場合と同様の計算複雑性を維持可能であることを示した。
論文 参考訳(メタデータ) (2024-02-14T15:51:55Z) - SPM: Structured Pretraining and Matching Architectures for Relevance
Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。
本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。
このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文 参考訳(メタデータ) (2023-08-15T11:45:34Z) - $\text{EFO}_{k}$-CQA: Towards Knowledge Graph Complex Query Answering
beyond Set Operation [36.77373013615789]
本稿では,データ生成,モデルトレーニング,メソッド評価のためのフレームワークを提案する。
実験的な評価のために,データセットとして$textEFO_k$-CQAを構築した。
論文 参考訳(メタデータ) (2023-07-15T13:18:20Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - AskYourDB: An end-to-end system for querying and visualizing relational
databases using natural language [0.0]
複雑な自然言語をSQLに変換するという課題に対処する意味解析手法を提案する。
我々は、モデルが本番環境にデプロイされたときに重要な部分を占める様々な前処理と後処理のステップによって、最先端のモデルを修正した。
製品がビジネスで利用できるようにするために、クエリ結果に自動視覚化フレームワークを追加しました。
論文 参考訳(メタデータ) (2022-10-16T13:31:32Z) - Text Summarization with Latent Queries [60.468323530248945]
本稿では,LaQSumについて紹介する。LaQSumは,既存の問合せ形式と抽象的な要約のための文書から遅延クエリを学習する,最初の統一テキスト要約システムである。
本システムでは, 潜伏クエリモデルと条件付き言語モデルとを協調的に最適化し, ユーザがテスト時に任意のタイプのクエリをプラグイン・アンド・プレイできるようにする。
本システムでは,クエリタイプ,文書設定,ターゲットドメインの異なる要約ベンチマークにおいて,強力な比較システムの性能を強く向上させる。
論文 参考訳(メタデータ) (2021-05-31T21:14:58Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Towards a Natural Language Query Processing System [0.0]
本稿では,自然言語クエリインタフェースとバックエンド関係データベースの設計と開発について報告する。
この研究の斬新さは、自然言語クエリを構造化クエリ言語に変換するために必要なメタデータを格納するために、グラフデータベースを中間層として定義することにある。
サンプルクエリの翻訳結果は90%の精度で得られた。
論文 参考訳(メタデータ) (2020-09-25T19:52:20Z) - KILT: a Benchmark for Knowledge Intensive Language Tasks [102.33046195554886]
知識集約型言語タスク(KILT)のベンチマークを示す。
KILTのすべてのタスクはウィキペディアのスナップショットと同じだ。
共有密度ベクトル指数とSeq2seqモデルとの結合が強いベースラインであることが分かる。
論文 参考訳(メタデータ) (2020-09-04T15:32:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。