論文の概要: Document Navigability: A Need for Print-Impaired
- arxiv url: http://arxiv.org/abs/2206.10253v1
- Date: Tue, 21 Jun 2022 11:01:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-23 02:28:51.445877
- Title: Document Navigability: A Need for Print-Impaired
- Title(参考訳): ドキュメントナビゲータビリティ: 印刷障害の必要性
- Authors: Anukriti Kumar, Tanuja Ganu, Saikat Guha
- Abstract要約: 本稿では,参照コンテンツを特定し,メタデータを抽出する視覚に基づく手法を提案する。
我々は,本手法を科学文献の引用に適用し,生来のデジタルとスキャンされた文書の両方で有効であることを確認した。
- 参考スコア(独自算出の注目度): 2.1325744957975568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Printed documents continue to be a challenge for blind, low-vision, and other
print-disabled (BLV) individuals. In this paper, we focus on the specific
problem of (in-)accessibility of internal references to citations, footnotes,
figures, tables and equations. While sighted users can flip to the referenced
content and flip back in seconds, linear audio narration that BLV individuals
rely on makes following these references extremely hard. We propose a vision
based technique to locate the referenced content and extract metadata needed to
(in subsequent work) inline a content summary into the audio narration. We
apply our technique to citations in scientific documents and find it works well
both on born-digital as well as scanned documents.
- Abstract(参考訳): 印刷された文書は、盲目、低視力、その他の印刷不能(BLV)個人にとって引き続き課題である。
本稿では, 引用, 脚注, 図形, 表, 方程式に対する内部参照の(内在性) 特定の問題に着目する。
視認されたユーザーは参照したコンテンツを数秒でひっくり返すことができるが、blvの個人が依存するリニアオーディオナレーションは、これらの参照を非常に難しいものにする。
本稿では,参照されたコンテンツを特定し,コンテンツ要約を音声ナレーションにインライン化するためのメタデータを抽出する視覚ベースの手法を提案する。
我々は,本手法を科学的文書の引用に適用し,ボルンデジタルとスキャンされた文書の両方でうまく機能することを確認した。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - μgat: Improving Single-Page Document Parsing by Providing Multi-Page Context [26.820913216377903]
この作品は、教皇登録書の大規模なコレクションであるRegesta Pontificum Romanumに焦点を当てている。
レゲスタは、他の文書の要約のカタログであり、場合によっては、そのような全文文書の内容に関する唯一の情報源である。
論文 参考訳(メタデータ) (2024-08-28T09:01:18Z) - Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。
まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。
このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文 参考訳(メタデータ) (2024-06-17T06:27:35Z) - Focus Anywhere for Fine-grained Multi-page Document Understanding [24.76897786595502]
本稿では,LVLMを単ページ/複数ページの文書に注目する上で,効果的パイプライン,ハイブリッドデータ,チューニング戦略であるFoxを提案する。
我々は、複数の視覚語彙を用いて、インターリーブされた文書ページの視覚的ハイブリッド知識を抽出する。
我々は、複数の視覚語彙と文書内図形理解の完全な反応を達成するために、複数の語彙間の視覚データを前景として描画する。
論文 参考訳(メタデータ) (2024-05-23T08:15:49Z) - Presentations are not always linear! GNN meets LLM for Document-to-Presentation Transformation with Attribution [21.473482276335194]
このような非線形なコンテンツマッピングをスライドに組み込むことは困難であり、その内容が文書に忠実であることを保証することは困難である。
入力文書からグラフを学習し,グラフニューラルネットワークとLLMを組み合わせてプレゼンテーションを生成する,新しいグラフベースソリューションを提案する。
論文 参考訳(メタデータ) (2024-05-21T13:52:33Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - ShabbyPages: A Reproducible Document Denoising and Binarization Dataset [59.457999432618614]
ShabbyPagesは新しいドキュメントイメージデータセットである。
本稿では,ShabbyPagesの作成プロセスについて議論し,人間の知覚力の高い実雑音の特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。
論文 参考訳(メタデータ) (2023-03-16T14:19:50Z) - Summaries as Captions: Generating Figure Captions for Scientific
Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。
図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。
大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-02-23T20:39:06Z) - Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。
ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。
技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文 参考訳(メタデータ) (2022-06-20T20:43:50Z) - Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。
本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。
提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文 参考訳(メタデータ) (2021-10-15T03:55:42Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。