Fugu-MT 論文翻訳(概要): Document Navigability: A Need for Print-Impaired

論文の概要: Document Navigability: A Need for Print-Impaired

arxiv url: http://arxiv.org/abs/2206.10253v1
Date: Tue, 21 Jun 2022 11:01:34 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-23 02:28:51.445877
Title: Document Navigability: A Need for Print-Impaired
Title（参考訳）: ドキュメントナビゲータビリティ: 印刷障害の必要性
Authors: Anukriti Kumar, Tanuja Ganu, Saikat Guha
Abstract要約: 本稿では,参照コンテンツを特定し,メタデータを抽出する視覚に基づく手法を提案する。我々は,本手法を科学文献の引用に適用し,生来のデジタルとスキャンされた文書の両方で有効であることを確認した。
参考スコア（独自算出の注目度）: 2.1325744957975568
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Printed documents continue to be a challenge for blind, low-vision, and other print-disabled (BLV) individuals. In this paper, we focus on the specific problem of (in-)accessibility of internal references to citations, footnotes, figures, tables and equations. While sighted users can flip to the referenced content and flip back in seconds, linear audio narration that BLV individuals rely on makes following these references extremely hard. We propose a vision based technique to locate the referenced content and extract metadata needed to (in subsequent work) inline a content summary into the audio narration. We apply our technique to citations in scientific documents and find it works well both on born-digital as well as scanned documents.
Abstract（参考訳）: 印刷された文書は、盲目、低視力、その他の印刷不能(BLV)個人にとって引き続き課題である。本稿では, 引用, 脚注, 図形, 表, 方程式に対する内部参照の(内在性) 特定の問題に着目する。視認されたユーザーは参照したコンテンツを数秒でひっくり返すことができるが、blvの個人が依存するリニアオーディオナレーションは、これらの参照を非常に難しいものにする。本稿では,参照されたコンテンツを特定し,コンテンツ要約を音声ナレーションにインライン化するためのメタデータを抽出する視覚ベースの手法を提案する。我々は,本手法を科学的文書の引用に適用し,ボルンデジタルとスキャンされた文書の両方でうまく機能することを確認した。

関連論文リスト

Cite Pretrain: Retrieval-Free Knowledge Attribution for Large Language Models [53.17363502535395]
信頼できる言語モデルは、正しい答えと検証可能な答えの両方を提供するべきです。現在のシステムは、外部レトリバーを推論時にクエリすることで、引用を挿入する。本稿では,合成QAペアを継続的に事前訓練するActive Indexingを提案する。
論文参考訳（メタデータ） (2025-06-21T04:48:05Z)
M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-02-06T17:07:22Z)
Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文参考訳（メタデータ） (2024-10-03T14:33:34Z)
μgat: Improving Single-Page Document Parsing by Providing Multi-Page Context [26.820913216377903]
この作品は、教皇登録書の大規模なコレクションであるRegesta Pontificum Romanumに焦点を当てている。レゲスタは、他の文書の要約のカタログであり、場合によっては、そのような全文文書の内容に関する唯一の情報源である。
論文参考訳（メタデータ） (2024-08-28T09:01:18Z)
Unifying Multimodal Retrieval via Document Screenshot Embedding [92.03571344075607]
Document Screenshot Embedding (DSE)は、文書のスクリーンショットを統一的な入力フォーマットとして扱う新しい検索パラダイムである。まず、Wiki-SSというウィキペディアのウェブページのスクリーンショットをコーパスとして作成し、Natural Questionsデータセットからの質問に答える。このようなテキスト集約的な文書検索設定では、DSEは構文解析に依存する他のテキスト検索方法と比較して、競合効果を示す。
論文参考訳（メタデータ） (2024-06-17T06:27:35Z)
Focus Anywhere for Fine-grained Multi-page Document Understanding [24.76897786595502]
本稿では,LVLMを単ページ/複数ページの文書に注目する上で,効果的パイプライン,ハイブリッドデータ,チューニング戦略であるFoxを提案する。我々は、複数の視覚語彙を用いて、インターリーブされた文書ページの視覚的ハイブリッド知識を抽出する。我々は、複数の視覚語彙と文書内図形理解の完全な反応を達成するために、複数の語彙間の視覚データを前景として描画する。
論文参考訳（メタデータ） (2024-05-23T08:15:49Z)
Presentations are not always linear! GNN meets LLM for Document-to-Presentation Transformation with Attribution [21.473482276335194]
このような非線形なコンテンツマッピングをスライドに組み込むことは困難であり、その内容が文書に忠実であることを保証することは困難である。入力文書からグラフを学習し,グラフニューラルネットワークとLLMを組み合わせてプレゼンテーションを生成する,新しいグラフベースソリューションを提案する。
論文参考訳（メタデータ） (2024-05-21T13:52:33Z)
Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。 ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文参考訳（メタデータ） (2024-03-25T08:00:43Z)
ShabbyPages: A Reproducible Document Denoising and Binarization Dataset [59.457999432618614]
ShabbyPagesは新しいドキュメントイメージデータセットである。本稿では,ShabbyPagesの作成プロセスについて議論し,人間の知覚力の高い実雑音の特徴を除去する畳み込みデノイザの訓練によるShabbyPagesの有用性を実証する。
論文参考訳（メタデータ） (2023-03-16T14:19:50Z)
Summaries as Captions: Generating Figure Captions for Scientific Documents with Automated Text Summarization [31.619379039184263]
図文キャプション生成は、科学文書におけるテキスト要約タスクとして、より効果的に取り組むことができる。図式参照段落を具体的に要約するために,事前学習した抽象要約モデルであるPEGを微調整した。大規模arXiv図を用いた実験により,本手法は,自動評価と人的評価の両方において,先行視覚法よりも優れた性能を示した。
論文参考訳（メタデータ） (2023-02-23T20:39:06Z)
Open Set Classification of Untranscribed Handwritten Documents [56.0167902098419]
重要な写本の膨大な量のデジタルページイメージが世界中のアーカイブに保存されている。ドキュメントのクラスや型付け'はおそらくメタデータに含まれる最も重要なタグです。技術的問題は文書の自動分類の1つであり、それぞれが書き起こされていない手書きのテキスト画像からなる。
論文参考訳（メタデータ） (2022-06-20T20:43:50Z)
Modeling Endorsement for Multi-Document Abstractive Summarization [10.166639983949887]
単一文書の要約と多文書の要約の重大な違いは、文書の中で健全なコンテンツがどのように現れるかである。本稿では,複数文書要約における文書間補完効果とその活用をモデル化する。提案手法は各文書から合成を生成し,他の文書から有意な内容を識別する支援者として機能する。
論文参考訳（メタデータ） (2021-10-15T03:55:42Z)
Learning to Select Bi-Aspect Information for Document-Scale Text Content Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文参考訳（メタデータ） (2020-02-24T12:52:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。