論文の概要: One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text
- arxiv url: http://arxiv.org/abs/2209.06584v1
- Date: Mon, 12 Sep 2022 19:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:31:17.104250
- Title: One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text
- Title(参考訳): One-Shot Doc Snippet Detection:テキスト以外のドキュメントで検索をパワーアップ
- Authors: Abhinav Java, Shripad Deshmukh, Milan Aggarwal, Surgan Jandial,
Mausoom Sarkar, Balaji Krishnamurthy
- Abstract要約: ターゲット文書中のスニペットを見つけるために,単発スニペットタスクとしてMONOMERを提案する。
我々は、MONOMERが1ショットテンプレート-LMからいくつかのベースラインより優れていることを示す実験を行う。
私たちはmonomerをトレーニングします。
視覚的に類似したクエリ検出データを持つ生成データ。
- 参考スコア(独自算出の注目度): 12.98328149016239
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active consumption of digital documents has yielded scope for research in
various applications, including search. Traditionally, searching within a
document has been cast as a text matching problem ignoring the rich layout and
visual cues commonly present in structured documents, forms, etc. To that end,
we ask a mostly unexplored question: "Can we search for other similar snippets
present in a target document page given a single query instance of a document
snippet?". We propose MONOMER to solve this as a one-shot snippet detection
task. MONOMER fuses context from visual, textual, and spatial modalities of
snippets and documents to find query snippet in target documents. We conduct
extensive ablations and experiments showing MONOMER outperforms several
baselines from one-shot object detection (BHRL), template matching, and
document understanding (LayoutLMv3). Due to the scarcity of relevant data for
the task at hand, we train MONOMER on programmatically generated data having
many visually similar query snippets and target document pairs from two
datasets - Flamingo Forms and PubLayNet. We also do a human study to validate
the generated data.
- Abstract(参考訳): デジタル文書のアクティブな消費は、検索を含む様々な応用の研究のスコープとなった。
伝統的に、ドキュメント内の検索は、構造化文書やフォームなどに一般的に存在するリッチなレイアウトや視覚的手がかりを無視して、テキストマッチング問題としてキャストされてきた。
ドキュメントスニペットの単一のクエリインスタンスが与えられた場合、ターゲットのドキュメントページにある同様のスニペットを検索しますか?
単発スニペット検出タスクとして MONOMER を提案する。
MONOMERは、コンテキストを視覚的、テキスト的、空間的なスニペットやドキュメントから切り離して、ターゲット文書のクエリスニペットを見つける。
我々は,one-shot object detection (bhrl), template matching, document understanding (layoutlmv3) のベースラインをモノマーが上回っていることを示す広範なアブレーションおよび実験を行った。
タスクに関連するデータが不足しているため、Flamingo FormsとPubLayNetという2つのデータセットから、多くの視覚的に類似したクエリスニペットとターゲットドキュメントペアを持つプログラム生成データに対してMONOMERをトレーニングする。
また、生成されたデータを検証するために人間の研究も行います。
関連論文リスト
- MILL: Mutual Verification with Large Language Models for Zero-Shot Query
Expansion [41.21789597997263]
本稿では,クエリ拡張のための新たなLarge Language Model (LLM) に基づく相互検証フレームワークを提案する。
具体的には、まず、LLMに符号化された文脈知識を効果的に活用できるクエリクエリー文書生成パイプラインを設計する。
次に、生成した文書と検索した文書の相互検証手法を用いて、検索した文書を、生成した文書の外部コンテキスト知識でフィルタリングし、生成した文書を、検索した文書のコーパス固有の知識でフィルタリングする。
論文 参考訳(メタデータ) (2023-10-29T16:04:10Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [64.5769639710927]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - SelfDocSeg: A Self-Supervised vision-based Approach towards Document
Segmentation [15.953725529361874]
文書レイアウト分析は文書研究コミュニティにとって既知の問題である。
個人生活へのインターネット接続が拡大するにつれ、パブリックドメインでは膨大な量のドキュメントが利用できるようになった。
我々は,この課題に自己監督型文書セグメンテーションアプローチと異なり,自己監督型文書セグメンテーションアプローチを用いて対処する。
論文 参考訳(メタデータ) (2023-05-01T12:47:55Z) - CAPSTONE: Curriculum Sampling for Dense Retrieval with Document
Expansion [68.19934563919192]
本稿では,学習中に擬似クエリを利用して,生成したクエリと実際のクエリとの関係を徐々に向上させるカリキュラムサンプリング戦略を提案する。
ドメイン内およびドメイン外両方のデータセットに対する実験結果から,本手法が従来の高密度検索モデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-12-18T15:57:46Z) - Towards End-to-End Unified Scene Text Detection and Layout Analysis [60.68100769639923]
本稿では,シーンテキストの検出とレイアウト解析を統合化するタスクについて紹介する。
この新たな研究課題を実現するために、最初の階層的なシーンテキストデータセットが導入された。
また,シーンテキストを同時に検出し,テキストクラスタを統一的に形成する手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T23:35:45Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文 参考訳(メタデータ) (2021-03-24T01:02:12Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。