論文の概要: RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models
- arxiv url: http://arxiv.org/abs/2405.18620v1
- Date: Tue, 28 May 2024 21:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 21:33:21.044689
- Title: RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models
- Title(参考訳): RealitySummary:大規模言語モデルを用いたオンデマンド混合現実感文書強調
- Authors: Aditya Gunturu, Shivesh Jadon, Nandi Zhang, Jarin Thundathil, Wesley Willett, Ryo Suzuki,
- Abstract要約: 本稿では、オンデマンドテキスト抽出、要約、拡張を用いて、印刷物やデジタル文書を拡張可能な複合現実読影アシスタントであるRealitySummaryを紹介する。
1)要約,2)比較表,3)タイムライン,4)キーワードリスト,5)要約ハイライト,6)情報カード。
- 参考スコア(独自算出の注目度): 13.906648004819107
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce RealitySummary, a mixed reality reading assistant that can enhance any printed or digital document using on-demand text extraction, summarization, and augmentation. While augmented reading tools promise to enhance physical reading experiences with overlaid digital content, prior systems have typically required pre-processed documents, which limits their generalizability and real-world use cases. In this paper, we explore on-demand document augmentation by leveraging large language models. To understand generalizable techniques for diverse documents, we first conducted an exploratory design study which identified five categories of document enhancements (summarization, augmentation, navigation, comparison, and extraction). Based on this, we developed a proof-of-concept system that can automatically extract and summarize text using Google Cloud OCR and GPT-4, then embed information around documents using a Microsoft Hololens 2 and Apple Vision Pro. We demonstrate real-time examples of six specific document augmentations: 1) summaries, 2) comparison tables, 3) timelines, 4) keyword lists, 5) summary highlighting, and 6) information cards. Results from a usability study (N=12) and in-the-wild study (N=11) highlight the potential benefits of on-demand MR document enhancement and opportunities for future research.
- Abstract(参考訳): 本稿では、オンデマンドテキスト抽出、要約、拡張を用いて、印刷物やデジタル文書を拡張可能な複合現実読影アシスタントであるRealitySummaryを紹介する。
拡張読影ツールは、オーバーレイされたデジタルコンテンツによる物理的な読書体験を強化することを約束するが、以前のシステムは、通常、その一般化可能性と実世界のユースケースを制限する、事前処理された文書を必要とする。
本稿では,大規模言語モデルを活用したオンデマンド文書拡張について検討する。
そこで我々はまず,文書拡張の5つのカテゴリ(要約,拡張,ナビゲーション,比較,抽出)を特定した探索的設計研究を行った。
そこで我々は,Google Cloud OCRとGPT-4を使ってテキストを自動的に抽出して要約し,Microsoft Hololens 2とApple Vision Proを使って文書に関する情報を埋め込む概念実証システムを開発した。
6つの特定のドキュメント拡張のリアルタイム例を示します。
1)要約。
2)比較表
3) タイムライン。
4)キーワードリスト。
5)要約ハイライト、及び
6) 情報カード。
ユーザビリティスタディ (N=12) とイン・ザ・ワイルドスタディ (N=11) の結果は、オンデマンドMR文書の強化と今後の研究機会の可能性を浮き彫りにしている。
関連論文リスト
- DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Functional Analytics for Document Ordering for Curriculum Development
and Comprehension [0.0]
本稿では,カリキュラム開発のための自動文書注文生成手法と,学習,トレーニング,その他のコンテンツシーケンスアプリケーションに使用する最適な読解順序作成手法を提案する。
このようなテクニックは、理解力の向上、説明が必要な領域の特定、カリキュラムの生成、検索結果の改善に使用することができる。
論文 参考訳(メタデータ) (2023-11-22T02:13:27Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Augmented Math: Authoring AR-Based Explorable Explanations by Augmenting
Static Math Textbooks [1.8097223019080158]
本稿では,Augmented Mathを紹介した。Augmented Mathは,静的な数学教科書をプログラミングなしで拡張することによって,ARの探索可能な説明を書くための機械学習ベースのアプローチである。
静的な文書を増大させるために,本システムはまず,光学文字認識(OCR)とコンピュータビジョンを用いて,与えられた文書から数式と図形を抽出する。
これにより、教師や学生のような非技術者のユーザは、既存の数学の教科書やハンドアウトをオンデマンドでパーソナライズされた探索可能な説明に変換することができる。
論文 参考訳(メタデータ) (2023-07-30T03:02:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。