Fugu-MT 論文翻訳(概要): Semi-Structured Query Grounding for Document-Oriented Databases with Deep Retrieval and Its Application to Receipt and POI Matching

論文の概要: Semi-Structured Query Grounding for Document-Oriented Databases with Deep Retrieval and Its Application to Receipt and POI Matching

arxiv url: http://arxiv.org/abs/2202.13959v1
Date: Wed, 23 Feb 2022 05:32:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-03-06 12:31:59.508765
Title: Semi-Structured Query Grounding for Document-Oriented Databases with Deep Retrieval and Its Application to Receipt and POI Matching
Title（参考訳）: 深部検索型ドキュメント指向データベースのための半構造化クエリグラウンドリングとその受信およびPOIマッチングへの応用
Authors: Geewook Kim, Wonseok Hwang, Minjoon Seo, Seunghyun Park
Abstract要約: 半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的としている。クエリとデータベースの両方のエントリの埋め込みと検索において,モジュールの最も効果的な組み合わせを見つけるために,広範な実験を行う。提案モデルでは,従来の手動パターンモデルよりも大幅に優れ,開発コストやメンテナンスコストの低減が図られている。
参考スコア（独自算出の注目度）: 23.52046767195031
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semi-structured query systems for document-oriented databases have many real applications. One particular application that we are interested in is matching each financial receipt image with its corresponding place of interest (POI, e.g., restaurant) in the nationwide database. The problem is especially challenging in the real production environment where many similar or incomplete entries exist in the database and queries are noisy (e.g., errors in optical character recognition). In this work, we aim to address practical challenges when using embedding-based retrieval for the query grounding problem in semi-structured data. Leveraging recent advancements in deep language encoding for retrieval, we conduct extensive experiments to find the most effective combination of modules for the embedding and retrieval of both query and database entries without any manually engineered component. The proposed model significantly outperforms the conventional manual pattern-based model while requiring much less development and maintenance cost. We also discuss some core observations in our experiments, which could be helpful for practitioners working on a similar problem in other domains.
Abstract（参考訳）: ドキュメント指向データベースのための半構造化クエリシステムは、多くの実アプリケーションを持っている。私たちが興味を持っている特定のアプリケーションの一つは、各金融レシートイメージと対応する利息の場所(例えばレストラン)を全国的なデータベースにマッチさせることです。この問題は、データベースに類似または不完全なエントリが多数存在し、クエリがノイズ(例えば、光学的文字認識のエラー)である実運用環境では特に困難である。本研究では,半構造化データにおけるクエリグラウンドリング問題に対する埋め込み型検索の実践的課題に対処することを目的とする。検索用深層言語エンコーディングの最近の進歩を活かし,手作業で設計したコンポーネントを使わずにクエリとデータベースのエントリの埋め込みと検索を行うためのモジュールの最も効果的な組み合わせを見つけるための広範囲な実験を行った。提案モデルは,従来の手作業によるパターンベースモデルを大きく上回っているが,開発コストやメンテナンスコストは少ない。実験の中核的な観察についても論じており、他の領域で同様の問題に取り組む実践者にも役立ちます。

関連論文リスト

MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文参考訳（メタデータ） (2025-09-30T15:09:14Z)
Reasoning-enhanced Query Understanding through Decomposition and Interpretation [87.56450566014625]
ReDIは、分解と解釈によるクエリ理解のための推論強化アプローチである。我々は,大規模検索エンジンから実世界の複雑なクエリの大規模データセットをコンパイルした。 BRIGHT と BEIR の実験により、ReDI はスパースと密度の高い検索パラダイムの両方において、強いベースラインを一貫して超えることを示した。
論文参考訳（メタデータ） (2025-09-08T10:58:42Z)
Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。 RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文参考訳（メタデータ） (2025-06-29T08:34:59Z)
MultiConIR: Towards multi-condition Information Retrieval [57.6405602406446]
我々は,マルチコンディションシナリオにおける検索モデルの評価を目的とした,最初のベンチマークであるMultiConIRを紹介する。本稿では,マルチコンディションのロバスト性,モノトニック関連性ランキング,クエリフォーマットの感度に基づいて,検索とリランクモデルの評価を行う3つのタスクを提案する。
論文参考訳（メタデータ） (2025-03-11T05:02:03Z)
BabelBench: An Omni Benchmark for Code-Driven Analysis of Multimodal and Multistructured Data [61.936320820180875]
大規模言語モデル(LLM)は、様々な領域でますます重要になっている。 BabelBenchは、コード実行によるマルチモーダルなマルチ構造化データ管理におけるLLMの熟練度を評価する革新的なベンチマークフレームワークである。 BabelBenchの実験結果から,ChatGPT 4のような最先端モデルでさえ,大幅な改善の余地があることが示唆された。
論文参考訳（メタデータ） (2024-10-01T15:11:24Z)
BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
多くの複雑な実世界のクエリは、関連する文書を特定するために詳細な推論を必要とする。 BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
論文参考訳（メタデータ） (2024-07-16T17:58:27Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Database-Augmented Query Representation for Information Retrieval [59.57065228857247]
データベース拡張クエリ表現(DAQu)と呼ばれる新しい検索フレームワークを提案する。 DAQuは、元のクエリを複数のテーブルにまたがるさまざまな(クエリ関連の)メタデータで拡張する。リレーショナルデータベースのメタデータを組み込む様々な検索シナリオにおいてDAQuを検証する。
論文参考訳（メタデータ） (2024-06-23T05:02:21Z)
STaRK: Benchmarking LLM Retrieval on Textual and Relational Knowledge Bases [93.96463520716759]
テキストと知識ベースを用いた大規模半構造検索ベンチマークSTARKを開発した。本ベンチマークでは, 製品検索, 学術論文検索, 精密医療におけるクエリの3分野について検討した。多様なリレーショナル情報と複雑なテキスト特性を統合した,現実的なユーザクエリを合成する,新しいパイプラインを設計する。
論文参考訳（メタデータ） (2024-04-19T22:54:54Z)
Improving Topic Relevance Model by Mix-structured Summarization and LLM-based Data Augmentation [16.170841777591345]
Dianpingのようなほとんどのソーシャル検索シナリオでは、検索関連性のモデリングは常に2つの課題に直面している。まず、クエリベースの要約と、クエリなしで文書の要約をトピック関連モデルの入力として取り上げる。そこで我々は,大規模言語モデル(LLM)の言語理解と生成能力を利用して,既存のトレーニングデータにおけるクエリやドキュメントからのクエリを書き換え,生成する。
論文参考訳（メタデータ） (2024-04-03T10:05:47Z)
SPM: Structured Pretraining and Matching Architectures for Relevance Modeling in Meituan Search [12.244685291395093]
eコマース検索では、クエリとドキュメントの関連性は、ユーザエクスペリエンスを満たす上で必須の要件である。本稿では,リッチな構造化文書に適合する2段階の事前学習およびマッチングアーキテクチャを提案する。このモデルは、すでにオンラインで展開されており、Meituanの検索トラフィックを1年以上にわたって提供している。
論文参考訳（メタデータ） (2023-08-15T11:45:34Z)
$\text{EFO}_{k}$-CQA: Towards Knowledge Graph Complex Query Answering beyond Set Operation [36.77373013615789]
本稿では,データ生成,モデルトレーニング,メソッド評価のためのフレームワークを提案する。実験的な評価のために,データセットとして$textEFO_k$-CQAを構築した。
論文参考訳（メタデータ） (2023-07-15T13:18:20Z)
AskYourDB: An end-to-end system for querying and visualizing relational databases using natural language [0.0]
複雑な自然言語をSQLに変換するという課題に対処する意味解析手法を提案する。我々は、モデルが本番環境にデプロイされたときに重要な部分を占める様々な前処理と後処理のステップによって、最先端のモデルを修正した。製品がビジネスで利用できるようにするために、クエリ結果に自動視覚化フレームワークを追加しました。
論文参考訳（メタデータ） (2022-10-16T13:31:32Z)
BERT Meets Relational DB: Contextual Representations of Relational Databases [4.029818252558553]
複数のテーブルからなる関係データベース上でエンティティの低次元表現を学習する問題に対処する。これらの注意に基づくモデルを使用して、リレーショナルデータベース内のエンティティの埋め込みを学ぶ方法を検討します。
論文参考訳（メタデータ） (2021-04-30T11:23:26Z)
Towards a Natural Language Query Processing System [0.0]
本稿では,自然言語クエリインタフェースとバックエンド関係データベースの設計と開発について報告する。この研究の斬新さは、自然言語クエリを構造化クエリ言語に変換するために必要なメタデータを格納するために、グラフデータベースを中間層として定義することにある。サンプルクエリの翻訳結果は90%の精度で得られた。
論文参考訳（メタデータ） (2020-09-25T19:52:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。