論文の概要: Document Navigability: A Need for Print-Impaired
- arxiv url: http://arxiv.org/abs/2206.10253v1
- Date: Tue, 21 Jun 2022 11:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 02:28:51.445877
- Title: Document Navigability: A Need for Print-Impaired
- Title(参考訳): ドキュメントナビゲータビリティ: 印刷障害の必要性
- Authors: Anukriti Kumar, Tanuja Ganu, Saikat Guha
- Abstract要約: 本稿では,参照コンテンツを特定し,メタデータを抽出する視覚に基づく手法を提案する。
我々は,本手法を科学文献の引用に適用し,生来のデジタルとスキャンされた文書の両方で有効であることを確認した。
- 参考スコア(独自算出の注目度): 2.1325744957975568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Printed documents continue to be a challenge for blind, low-vision, and other
print-disabled (BLV) individuals. In this paper, we focus on the specific
problem of (in-)accessibility of internal references to citations, footnotes,
figures, tables and equations. While sighted users can flip to the referenced
content and flip back in seconds, linear audio narration that BLV individuals
rely on makes following these references extremely hard. We propose a vision
based technique to locate the referenced content and extract metadata needed to
(in subsequent work) inline a content summary into the audio narration. We
apply our technique to citations in scientific documents and find it works well
both on born-digital as well as scanned documents.
- Abstract(参考訳): 印刷された文書は、盲目、低視力、その他の印刷不能(BLV)個人にとって引き続き課題である。
本稿では, 引用, 脚注, 図形, 表, 方程式に対する内部参照の(内在性) 特定の問題に着目する。
視認されたユーザーは参照したコンテンツを数秒でひっくり返すことができるが、blvの個人が依存するリニアオーディオナレーションは、これらの参照を非常に難しいものにする。
本稿では,参照されたコンテンツを特定し,コンテンツ要約を音声ナレーションにインライン化するためのメタデータを抽出する視覚ベースの手法を提案する。
我々は,本手法を科学的文書の引用に適用し,ボルンデジタルとスキャンされた文書の両方でうまく機能することを確認した。
関連論文リスト
- DocPedia: Unleashing the Power of Large Multimodal Model in the
Frequency Domain for Versatile Document Understanding [98.41782470335032]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Context-Aware Classification of Legal Document Pages [7.306025535482021]
入力長の制約を克服する,単純だが効果的な手法を提案する。
具体的には、前のページのシーケンシャルな情報を含む余分なトークンで入力を強化する。
英語とポルトガル語の2つの法的データセットを用いて実験を行った結果,提案手法は文書ページ分類の性能を著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-04-05T23:14:58Z) - ShabbyPages: A Reproducible Document Denoising and Binarization Dataset [59.457999432618614]
ShabbyPagesは新しいドキュメントイメージデータセットである。
本稿では,ShabbyPagesの作成プロセスについて議論し,人間の知覚力の高い実雑音の特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。
論文 参考訳(メタデータ) (2023-03-16T14:19:50Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - CitationIE: Leveraging the Citation Graph for Scientific Information
Extraction [89.33938657493765]
引用論文と引用論文の参照リンクの引用グラフを使用する。
最先端技術に対するエンド・ツー・エンドの情報抽出の大幅な改善を観察する。
論文 参考訳(メタデータ) (2021-06-03T03:00:12Z) - DocReader: Bounding-Box Free Training of a Document Information
Extraction Model [0.0]
DocReaderは、エンドツーエンドのニューラルネットワークベースの情報抽出ソリューションです。
読み込む必要のあるイメージとターゲット値のみを使用して、トレーニングすることができる。
DocReaderがトレーニングにバウンディングボックスを必要とする他のメソッドに到達し、上回ることができることを実証します。
論文 参考訳(メタデータ) (2021-05-10T12:48:18Z) - A Token-level Reference-free Hallucination Detection Benchmark for
Free-form Text Generation [50.55448707570669]
本稿ではトークンレベルの参照なし幻覚検出タスクとHaDesというアノテーション付きデータセットを提案する。
このデータセットを作成するために、まず英語のウィキペディアから抽出された大量のテキストセグメントを摂り込み、それからクラウドソースアノテーションで検証する。
論文 参考訳(メタデータ) (2021-04-18T04:09:48Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。