論文の概要: DocTrack: A Visually-Rich Document Dataset Really Aligned with Human Eye
Movement for Machine Reading
- arxiv url: http://arxiv.org/abs/2310.14802v1
- Date: Mon, 23 Oct 2023 10:58:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 20:48:35.642431
- Title: DocTrack: A Visually-Rich Document Dataset Really Aligned with Human Eye
Movement for Machine Reading
- Title(参考訳): DocTrack: 機械読み取りのための人間の目の動きをリアルに調整したビジュアルリッチなドキュメントデータセット
- Authors: Hao Wang, Qingxuan Wang, Yue Li, Changqing Wang, Chenhui Chu and Rui
Wang
- Abstract要約: 我々は、視線追跡技術を用いて人間の眼球運動情報と本当に一致したVRDデータセットであるtextscDocTrackを紹介した。
文書理解作業における人間の読解順序の影響について検討し,機械が人間と同じ順序で読解した場合に何が起こるかを検討する。
私たちの結果は、Document AIモデルは大きな進歩を遂げているが、人間のように正確に、継続的に、柔軟にVRDを読むことができるまでには、まだまだ長い道のりがあることを示唆している。
- 参考スコア(独自算出の注目度): 20.479196838849937
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The use of visually-rich documents (VRDs) in various fields has created a
demand for Document AI models that can read and comprehend documents like
humans, which requires the overcoming of technical, linguistic, and cognitive
barriers. Unfortunately, the lack of appropriate datasets has significantly
hindered advancements in the field. To address this issue, we introduce
\textsc{DocTrack}, a VRD dataset really aligned with human eye-movement
information using eye-tracking technology. This dataset can be used to
investigate the challenges mentioned above. Additionally, we explore the impact
of human reading order on document understanding tasks and examine what would
happen if a machine reads in the same order as a human. Our results suggest
that although Document AI models have made significant progress, they still
have a long way to go before they can read VRDs as accurately, continuously,
and flexibly as humans do. These findings have potential implications for
future research and development of Document AI models. The data is available at
\url{https://github.com/hint-lab/doctrack}.
- Abstract(参考訳): 様々な分野における視覚リッチドキュメント(vrd)の使用は、人間のような文書を読み書きし理解できる文書aiモデルの需要を生み出し、技術的、言語的、認知的障壁を克服する必要がある。
残念ながら、適切なデータセットの欠如は、この分野の進歩を著しく妨げている。
この問題に対処するために,眼球追跡技術を用いた人間の眼球運動情報と本当に一致するVRDデータセットである‘textsc{DocTrack} を紹介した。
このデータセットは、上述の課題を調査するために使用できる。
さらに,人間の読解順序が文書理解タスクに与える影響について検討し,機械が人間と同じ順序で読み取った場合,何が起こるかを検討する。
私たちの結果は、Document AIモデルは大きな進歩を遂げましたが、人間のように正確に、継続的に、柔軟にVRDを読むことができるまでにはまだ長い道のりがあります。
これらの発見は将来のドキュメントAIモデルの研究と開発に潜在的に影響する可能性がある。
データは \url{https://github.com/hint-lab/doctrack} で入手できる。
関連論文リスト
- DocMamba: Efficient Document Pre-training with State Space Model [56.84200017560988]
本稿では,状態空間モデルに基づく新しいフレームワークDocMambaを紹介する。
グローバルなモデリング能力を保ちながら、計算複雑性を線形に減らすように設計されている。
HRDocの実験では、DocMambaの長さ外挿の可能性が確認された。
論文 参考訳(メタデータ) (2024-09-18T11:34:28Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Why is AI not a Panacea for Data Workers? An Interview Study on Human-AI
Collaboration in Data Storytelling [59.08591308749448]
業界と学界の18人のデータワーカーにインタビューして、AIとのコラボレーションの場所と方法を聞いた。
驚いたことに、参加者はAIとのコラボレーションに興奮を見せたが、彼らの多くは反感を表明し、曖昧な理由を指摘した。
論文 参考訳(メタデータ) (2023-04-17T15:30:05Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Lessons from Deep Learning applied to Scholarly Information Extraction:
What Works, What Doesn't, and Future Directions [12.62863659147376]
EneRexは、コンピュータ科学の分野における大規模なデータセットから、どのようにして重要な洞察を抽出できるかを示す。
既存のデータセットがキャパシティに制限されていること、EneRexが既存のナレッジグラフにどのように適合するかを強調します。
論文 参考訳(メタデータ) (2022-07-08T17:37:56Z) - Understanding Machine Learning Practitioners' Data Documentation
Perceptions, Needs, Challenges, and Desiderata [10.689661834716613]
データは機械学習(ML)モデルの開発と評価の中心である。
責任あるAIの実践を促進するために、研究者と実践者はデータドキュメントの増加を提唱し始めた。
これらのデータドキュメンテーションフレームワークがML実践者のニーズを満たすかどうかについてはほとんど研究されていない。
論文 参考訳(メタデータ) (2022-06-06T21:55:39Z) - Fantastic Data and How to Query Them [3.464871689508835]
異なるデータセットに対する統一されたフレームワークに関するビジョンを提示し、それらを統合し、簡単にクエリできるようにします。
我々は、コンピュータビジョンにおけるデータセットのためのフレームワークを作成し、その利点をさまざまなシナリオで示すために、現在進行中の作業でこれを実証しています。
論文 参考訳(メタデータ) (2022-01-13T15:24:46Z) - Sim2Real Docs: Domain Randomization for Documents in Natural Scenes
using Ray-traced Rendering [2.8034191857296933]
Sim2Real Docsは、自然な場面でドキュメントのデータセットとドメインランダム化を実行するためのフレームワークである。
光、幾何学、カメラ、背景の物理的相互作用をシミュレートするレンダリングを使用することで、自然な場面で文書のデータセットを合成する。
機械学習モデルの役割は、レンダリングパイプラインによって引き起こされる逆問題を解決することである。
論文 参考訳(メタデータ) (2021-12-16T22:07:48Z) - Document AI: Benchmarks, Models and Applications [35.46858492311289]
ドキュメントAI(Document AI)とは、ビジネス文書を自動的に読み、理解し、分析する技術である。
近年、ディープラーニング技術の人気は、Document AIの開発を大きく進めている。
本稿では,代表モデル,タスク,ベンチマークデータセットについて概説する。
論文 参考訳(メタデータ) (2021-11-16T16:43:07Z) - REGRAD: A Large-Scale Relational Grasp Dataset for Safe and
Object-Specific Robotic Grasping in Clutter [52.117388513480435]
本稿では,オブジェクト間の関係のモデル化を継続するregradという新しいデータセットを提案する。
データセットは2D画像と3Dポイントクラウドの両方で収集されます。
ユーザは、好きなだけ多くのデータを生成するために、自由に独自のオブジェクトモデルをインポートできる。
論文 参考訳(メタデータ) (2021-04-29T05:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。