論文の概要: RealitySummary: Exploring On-Demand Mixed Reality Text Summarization and Question Answering using Large Language Models
- arxiv url: http://arxiv.org/abs/2405.18620v3
- Date: Tue, 23 Sep 2025 18:21:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.439279
- Title: RealitySummary: Exploring On-Demand Mixed Reality Text Summarization and Question Answering using Large Language Models
- Title(参考訳): RealitySummary:大規模言語モデルを用いたオンライン混合現実テキスト要約と質問回答の探索
- Authors: Aditya Gunturu, Shivesh Jadon, Nandi Zhang, Morteza Faraji, Jarin Thundathil, Wesley Willett, Ryo Suzuki,
- Abstract要約: 大きな言語モデル(LLM)は、読み上げや要約の補助として人気を集めている。
日常的な読書をサポートするためにMR(Mixed Reality)インターフェースを統合する際に、その潜在的なメリットについてはほとんど知られていない。
我々は、常時オンのカメラアクセス、OCRベースのテキスト抽出、拡張空間および視覚応答とLLMをシームレスに統合するMR読み取りアシスタントであるRealSummaryを開発した。
私たちの経験的研究の結果は、常時オンの暗黙の補助、長期の時間的履歴、最小限のコンテキスト切替、空間的余裕など、AIとMRを組み合わせるというユニークな利点を浮き彫りにしている。
- 参考スコア(独自算出の注目度): 12.741988989605415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are gaining popularity as reading and summarization aids. However, little is known about their potential benefits when integrated with mixed reality (MR) interfaces to support everyday reading. In this iterative investigation, we developed RealitySummary, an MR reading assistant that seamlessly integrates LLMs with always-on camera access, OCR-based text extraction, and augmented spatial and visual responses. Developed iteratively, RealitySummary evolved across three versions, each shaped by user feedback and reflective analysis: 1) a preliminary user study to understand reader perceptions (N=12), 2) an in-the-wild deployment to explore real-world usage (N=11), and 3) a diary study to capture insights from real-world work contexts (N=5). Our empirical studies' findings highlight the unique advantages of combining AI and MR, including always-on implicit assistance, long-term temporal history, minimal context switching, and spatial affordances, demonstrating significant potential for future LLM-MR interfaces beyond traditional screen-based interactions.
- Abstract(参考訳): 大きな言語モデル(LLM)は、読み上げや要約の補助として人気を集めている。
しかし、日常的な読書をサポートするためにMR(Mixed Reality)インターフェースを統合する際に、それらの潜在的な利点についてはほとんど知られていない。
本研究では,常時オンのカメラアクセス,OCRベースのテキスト抽出,空間的および視覚的応答をシームレスに統合するMR読み取りアシスタントであるRealSummaryを開発した。
反復的に開発されたRealSummaryは、3つのバージョンにまたがって進化した。
1)読取者の知覚を理解するための予備的ユーザスタディ(N=12)
2)現実世界の利用(N=11)を探究する、地中展開。
3)実世界の作業状況から洞察を得るための日記研究(N=5。
実験的な研究の結果は、常時オンの暗黙の補助、長期の時間的履歴、最小限のコンテキスト切替、空間的余裕など、AIとMRを組み合わせるというユニークな利点を強調し、従来のスクリーンベースインタラクション以上の将来のLLM-MRインターフェースの可能性を示している。
関連論文リスト
- PreSumm: Predicting Summarization Performance Without Summarizing [20.149416378181872]
本稿では,ソース文書のみに基づいて要約性能を予測する新しいタスクであるPreSummを紹介する。
我々の分析では、PreSummスコアが低い文書の共通特性に光を当て、コヒーレンス問題や複雑な内容、明確な主テーマの欠如に悩まされることがしばしば明らかになった。
論文 参考訳(メタデータ) (2025-04-07T18:43:00Z) - ARLED: Leveraging LED-based ARMAN Model for Abstractive Summarization of Persian Long Documents [0.0]
著者はEnsaniのWebサイトから入手した30万のフルテキストペルシア語の論文のデータセットを紹介している。
彼らは、要約を生成するために、Longformerアーキテクチャに基づいたARMANモデルを適用します。
結果はペルシャ語のテキスト要約における有望なパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-03-13T10:16:46Z) - SlideSpawn: An Automatic Slides Generation System for Research Publications [0.0]
本稿では,研究資料のPDFを入力とし,質の高いプレゼンテーションを生成する新しいシステムであるSlideSpwanを提案する。
PS5KデータセットとAminer 9.5K Insightsデータセットに基づいてトレーニングされた機械学習モデルを使用して、論文の各文のサリエンスを予測する。
650対の論文とスライドによるテストセットの実験により,本システムがより良い品質のプレゼンテーションを生成することを示す。
論文 参考訳(メタデータ) (2024-11-20T18:16:16Z) - DocGenome: An Open Large-scale Scientific Document Benchmark for Training and Testing Multi-modal Large Language Models [63.466265039007816]
我々は、arXivオープンアクセスコミュニティの153の分野から500Kの科学文書を注釈付けして構築した構造化文書ベンチマークDocGenomeを提案する。
我々はDocGenomeの利点を実証するために広範な実験を行い、我々のベンチマークで大規模モデルの性能を客観的に評価した。
論文 参考訳(メタデータ) (2024-06-17T15:13:52Z) - Functional Analytics for Document Ordering for Curriculum Development
and Comprehension [0.0]
本稿では,カリキュラム開発のための自動文書注文生成手法と,学習,トレーニング,その他のコンテンツシーケンスアプリケーションに使用する最適な読解順序作成手法を提案する。
このようなテクニックは、理解力の向上、説明が必要な領域の特定、カリキュラムの生成、検索結果の改善に使用することができる。
論文 参考訳(メタデータ) (2023-11-22T02:13:27Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - Augmented Math: Authoring AR-Based Explorable Explanations by Augmenting
Static Math Textbooks [1.8097223019080158]
本稿では,Augmented Mathを紹介した。Augmented Mathは,静的な数学教科書をプログラミングなしで拡張することによって,ARの探索可能な説明を書くための機械学習ベースのアプローチである。
静的な文書を増大させるために,本システムはまず,光学文字認識(OCR)とコンピュータビジョンを用いて,与えられた文書から数式と図形を抽出する。
これにより、教師や学生のような非技術者のユーザは、既存の数学の教科書やハンドアウトをオンデマンドでパーソナライズされた探索可能な説明に変換することができる。
論文 参考訳(メタデータ) (2023-07-30T03:02:52Z) - Generate rather than Retrieve: Large Language Models are Strong Context
Generators [74.87021992611672]
本稿では,文書検索を大規模言語モデル生成器に置き換えることで,知識集約型タスクを解く新しい視点を提案する。
我々は,提案手法をgenRead (genRead) と呼び,まず大きな言語モデルに対して,与えられた質問に基づいて文脈文書を生成し,次に生成された文書を読み出して最終回答を生成する。
論文 参考訳(メタデータ) (2022-09-21T01:30:59Z) - TRIE++: Towards End-to-End Information Extraction from Visually Rich
Documents [51.744527199305445]
本稿では,視覚的にリッチな文書からエンド・ツー・エンドの情報抽出フレームワークを提案する。
テキスト読み出しと情報抽出は、よく設計されたマルチモーダルコンテキストブロックを介して互いに強化することができる。
フレームワークはエンドツーエンドのトレーニング可能な方法でトレーニングでき、グローバルな最適化が達成できる。
論文 参考訳(メタデータ) (2022-07-14T08:52:07Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Enhancing Extractive Text Summarization with Topic-Aware Graph Neural
Networks [21.379555672973975]
本稿では,グラフニューラルネットワーク(GNN)に基づく抽出要約モデルを提案する。
本モデルでは,文章選択のための文書レベルの特徴を提供する潜在トピックを発見するために,共同ニューラルトピックモデル(NTM)を統合している。
実験結果から,CNN/DMおよびNYTデータセットにおいて,本モデルがほぼ最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2020-10-13T09:30:04Z) - From Standard Summarization to New Tasks and Beyond: Summarization with
Manifold Information [77.89755281215079]
テキスト要約は、原文書の短く凝縮した版を作成することを目的とした研究分野である。
現実世界のアプリケーションでは、ほとんどのデータは平易なテキスト形式ではない。
本稿では,現実のアプリケーションにおけるこれらの新しい要約タスクとアプローチについて調査する。
論文 参考訳(メタデータ) (2020-05-10T14:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。