Fugu-MT 論文翻訳(概要): RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models

論文の概要: RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models

arxiv url: http://arxiv.org/abs/2405.18620v1
Date: Tue, 28 May 2024 21:59:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-30 21:33:21.044689
Title: RealitySummary: On-Demand Mixed Reality Document Enhancement using Large Language Models
Title（参考訳）: RealitySummary:大規模言語モデルを用いたオンデマンド混合現実感文書強調
Authors: Aditya Gunturu, Shivesh Jadon, Nandi Zhang, Jarin Thundathil, Wesley Willett, Ryo Suzuki,
Abstract要約: 本稿では、オンデマンドテキスト抽出、要約、拡張を用いて、印刷物やデジタル文書を拡張可能な複合現実読影アシスタントであるRealitySummaryを紹介する。 1)要約,2)比較表,3)タイムライン,4)キーワードリスト,5)要約ハイライト,6)情報カード。
参考スコア（独自算出の注目度）: 13.906648004819107
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce RealitySummary, a mixed reality reading assistant that can enhance any printed or digital document using on-demand text extraction, summarization, and augmentation. While augmented reading tools promise to enhance physical reading experiences with overlaid digital content, prior systems have typically required pre-processed documents, which limits their generalizability and real-world use cases. In this paper, we explore on-demand document augmentation by leveraging large language models. To understand generalizable techniques for diverse documents, we first conducted an exploratory design study which identified five categories of document enhancements (summarization, augmentation, navigation, comparison, and extraction). Based on this, we developed a proof-of-concept system that can automatically extract and summarize text using Google Cloud OCR and GPT-4, then embed information around documents using a Microsoft Hololens 2 and Apple Vision Pro. We demonstrate real-time examples of six specific document augmentations: 1) summaries, 2) comparison tables, 3) timelines, 4) keyword lists, 5) summary highlighting, and 6) information cards. Results from a usability study (N=12) and in-the-wild study (N=11) highlight the potential benefits of on-demand MR document enhancement and opportunities for future research.
Abstract（参考訳）: 本稿では、オンデマンドテキスト抽出、要約、拡張を用いて、印刷物やデジタル文書を拡張可能な複合現実読影アシスタントであるRealitySummaryを紹介する。拡張読影ツールは、オーバーレイされたデジタルコンテンツによる物理的な読書体験を強化することを約束するが、以前のシステムは、通常、その一般化可能性と実世界のユースケースを制限する、事前処理された文書を必要とする。本稿では,大規模言語モデルを活用したオンデマンド文書拡張について検討する。そこで我々はまず,文書拡張の5つのカテゴリ(要約,拡張,ナビゲーション,比較,抽出)を特定した探索的設計研究を行った。そこで我々は,Google Cloud OCRとGPT-4を使ってテキストを自動的に抽出して要約し,Microsoft Hololens 2とApple Vision Proを使って文書に関する情報を埋め込む概念実証システムを開発した。 6つの特定のドキュメント拡張のリアルタイム例を示します。 1)要約。 2)比較表 3) タイムライン。 4)キーワードリスト。 5)要約ハイライト、及び 6) 情報カード。ユーザビリティスタディ (N=12) とイン・ザ・ワイルドスタディ (N=11) の結果は、オンデマンドMR文書の強化と今後の研究機会の可能性を浮き彫りにしている。

関連論文リスト

PreSumm: Predicting Summarization Performance Without Summarizing [20.149416378181872]
本稿では,ソース文書のみに基づいて要約性能を予測する新しいタスクであるPreSummを紹介する。我々の分析では、PreSummスコアが低い文書の共通特性に光を当て、コヒーレンス問題や複雑な内容、明確な主テーマの欠如に悩まされることがしばしば明らかになった。
論文参考訳（メタデータ） (2025-04-07T18:43:00Z)
ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents [0.0]
著者はEnsaniのWebサイトから入手した30万のフルテキストペルシア語の論文のデータセットを紹介している。彼らは、要約を生成するために、Longformerアーキテクチャに基づいたARMANモデルを適用します。結果はペルシャ語のテキスト要約における有望なパフォーマンスを示す。
論文参考訳（メタデータ） (2025-03-13T10:16:46Z)
SlideSpawn: An Automatic Slides Generation System for Research Publications [0.0]
本稿では,研究資料のPDFを入力とし,質の高いプレゼンテーションを生成する新しいシステムであるSlideSpwanを提案する。 PS5KデータセットとAminer 9.5K Insightsデータセットに基づいてトレーニングされた機械学習モデルを使用して、論文の各文のサリエンスを予測する。 650対の論文とスライドによるテストセットの実験により,本システムがより良い品質のプレゼンテーションを生成することを示す。
論文参考訳（メタデータ） (2024-11-20T18:16:16Z)
DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文参考訳（メタデータ） (2024-06-17T15:13:52Z)
Functional Analytics for Document Ordering for Curriculum Development and Comprehension [0.0]
本稿では,カリキュラム開発のための自動文書注文生成手法と,学習,トレーニング,その他のコンテンツシーケンスアプリケーションに使用する最適な読解順序作成手法を提案する。このようなテクニックは、理解力の向上、説明が必要な領域の特定、カリキュラムの生成、検索結果の改善に使用することができる。
論文参考訳（メタデータ） (2023-11-22T02:13:27Z)
DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文参考訳（メタデータ） (2023-11-20T14:42:25Z)
Augmented Math: Authoring AR-Based Explorable Explanations by Augmenting Static Math Textbooks [1.8097223019080158]
本稿では,Augmented Mathを紹介した。Augmented Mathは,静的な数学教科書をプログラミングなしで拡張することによって,ARの探索可能な説明を書くための機械学習ベースのアプローチである。静的な文書を増大させるために,本システムはまず,光学文字認識(OCR)とコンピュータビジョンを用いて,与えられた文書から数式と図形を抽出する。これにより、教師や学生のような非技術者のユーザは、既存の数学の教科書やハンドアウトをオンデマンドでパーソナライズされた探索可能な説明に変換することができる。
論文参考訳（メタデータ） (2023-07-30T03:02:52Z)
Generate rather than Retrieve: Large Language Models are Strong Context Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文参考訳（メタデータ） (2022-09-21T01:30:59Z)
TRIE++: Towards End-to-End Information Extraction from Visually Rich Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文参考訳（メタデータ） (2022-07-14T08:52:07Z)
Layout-Aware Information Extraction for Document-Grounded Dialogue: Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。 LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文参考訳（メタデータ） (2022-07-14T07:59:45Z)
Enhancing Extractive Text Summarization with Topic-Aware Graph Neural Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文参考訳（メタデータ） (2020-10-13T09:30:04Z)
From Standard Summarization to New Tasks and Beyond: Summarization with Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文参考訳（メタデータ） (2020-05-10T14:59:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。