論文の概要: One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text
- arxiv url: http://arxiv.org/abs/2209.06584v1
- Date: Mon, 12 Sep 2022 19:26:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:31:17.104250
- Title: One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text
- Title(参考訳): One-Shot Doc Snippet Detection:テキスト以外のドキュメントで検索をパワーアップ
- Authors: Abhinav Java, Shripad Deshmukh, Milan Aggarwal, Surgan Jandial,
Mausoom Sarkar, Balaji Krishnamurthy
- Abstract要約: ターゲット文書中のスニペットを見つけるために,単発スニペットタスクとしてMONOMERを提案する。
我々は、MONOMERが1ショットテンプレート-LMからいくつかのベースラインより優れていることを示す実験を行う。
私たちはmonomerをトレーニングします。
視覚的に類似したクエリ検出データを持つ生成データ。
- 参考スコア(独自算出の注目度): 12.98328149016239
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Active consumption of digital documents has yielded scope for research in
various applications, including search. Traditionally, searching within a
document has been cast as a text matching problem ignoring the rich layout and
visual cues commonly present in structured documents, forms, etc. To that end,
we ask a mostly unexplored question: "Can we search for other similar snippets
present in a target document page given a single query instance of a document
snippet?". We propose MONOMER to solve this as a one-shot snippet detection
task. MONOMER fuses context from visual, textual, and spatial modalities of
snippets and documents to find query snippet in target documents. We conduct
extensive ablations and experiments showing MONOMER outperforms several
baselines from one-shot object detection (BHRL), template matching, and
document understanding (LayoutLMv3). Due to the scarcity of relevant data for
the task at hand, we train MONOMER on programmatically generated data having
many visually similar query snippets and target document pairs from two
datasets - Flamingo Forms and PubLayNet. We also do a human study to validate
the generated data.
- Abstract(参考訳): デジタル文書のアクティブな消費は、検索を含む様々な応用の研究のスコープとなった。
伝統的に、ドキュメント内の検索は、構造化文書やフォームなどに一般的に存在するリッチなレイアウトや視覚的手がかりを無視して、テキストマッチング問題としてキャストされてきた。
ドキュメントスニペットの単一のクエリインスタンスが与えられた場合、ターゲットのドキュメントページにある同様のスニペットを検索しますか?
単発スニペット検出タスクとして MONOMER を提案する。
MONOMERは、コンテキストを視覚的、テキスト的、空間的なスニペットやドキュメントから切り離して、ターゲット文書のクエリスニペットを見つける。
我々は,one-shot object detection (bhrl), template matching, document understanding (layoutlmv3) のベースラインをモノマーが上回っていることを示す広範なアブレーションおよび実験を行った。
タスクに関連するデータが不足しているため、Flamingo FormsとPubLayNetという2つのデータセットから、多くの視覚的に類似したクエリスニペットとターゲットドキュメントペアを持つプログラム生成データに対してMONOMERをトレーニングする。
また、生成されたデータを検証するために人間の研究も行います。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - BuDDIE: A Business Document Dataset for Multi-task Information Extraction [18.440587946049845]
BuDDIEは、1,665の現実世界のビジネスドキュメントのマルチタスクデータセットである。
当社のデータセットは、米国政府のウェブサイトから公開されているビジネスエンティティドキュメントで構成されています。
論文 参考訳(メタデータ) (2024-04-05T10:26:42Z) - PDFTriage: Question Answering over Long, Structured Documents [60.96667912964659]
構造化文書をプレーンテキストとして表現することは、これらの文書をリッチな構造でユーザ精神モデルと矛盾する。
本稿では,構造や内容に基づいて,モデルがコンテキストを検索できるPDFTriageを提案する。
ベンチマークデータセットは,80以上の構造化文書に900以上の人間が生成した質問からなる。
論文 参考訳(メタデータ) (2023-09-16T04:29:05Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Cross-Modal Entity Matching for Visually Rich Documents [4.8119678510491815]
視覚的にリッチなドキュメントは、視覚的な手がかりを使ってセマンティクスを強化します。
これらのドキュメントの構造化クエリを可能にする既存の作業は、これを考慮に入れない。
この制限に対処するクロスモーダルなエンティティマッチングフレームワークであるJunoを提案する。
論文 参考訳(メタデータ) (2023-03-01T18:26:14Z) - Multi-View Document Representation Learning for Open-Domain Dense
Retrieval [87.11836738011007]
本稿では,多視点文書表現学習フレームワークを提案する。
ドキュメントを表現し、異なるクエリに合わせるように強制するために、マルチビューの埋め込みを作成することを目的としている。
実験により,本手法は最近の成果より優れ,最先端の結果が得られた。
論文 参考訳(メタデータ) (2022-03-16T03:36:38Z) - CSFCube -- A Test Collection of Computer Science Research Articles for
Faceted Query by Example [43.01717754418893]
例によるフェーステッドクエリのタスクを紹介します。
ユーザは、入力クエリドキュメントに加えて、より細かいアスペクトを指定することもできる。
我々は,クエリ科学論文に類似した科学的論文を検索できるモデルを構想する。
論文 参考訳(メタデータ) (2021-03-24T01:02:12Z) - DocBank: A Benchmark Dataset for Document Layout Analysis [114.81155155508083]
文書レイアウト解析のための詳細なトークンレベルのアノテーションを備えた500Kドキュメントページを含むベンチマークデータセットである textbfDocBank を提示する。
実験の結果,DocBankでトレーニングされたモデルは,さまざまなドキュメントのレイアウト情報を正確に認識することがわかった。
論文 参考訳(メタデータ) (2020-06-01T16:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。