論文の概要: ARTiST: Automated Text Simplification for Task Guidance in Augmented
Reality
- arxiv url: http://arxiv.org/abs/2402.18797v1
- Date: Thu, 29 Feb 2024 01:58:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 16:22:54.660167
- Title: ARTiST: Automated Text Simplification for Task Guidance in Augmented
Reality
- Title(参考訳): ARTiST:拡張現実におけるタスクガイダンスのためのテキストの簡易化
- Authors: Guande Wu, Jing Qian, Sonia Castelo, Shaoyu Chen, Joao Rulff, Claudio
Silva
- Abstract要約: ARTiSTは、数発のプロンプトとGPT-3モデルを使用して、拡張現実のためのテキストの長さとセマンティックコンテンツを最適化する自動テキスト単純化システムである。
16ユーザを対象にした実証実験の結果,ARTiSTは認知負荷を軽減し,従来の手法で修正した未修正テキストとテキストの両方よりも性能を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 11.23591724305816
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text presented in augmented reality provides in-situ, real-time information
for users. However, this content can be challenging to apprehend quickly when
engaging in cognitively demanding AR tasks, especially when it is presented on
a head-mounted display. We propose ARTiST, an automatic text simplification
system that uses a few-shot prompt and GPT-3 models to specifically optimize
the text length and semantic content for augmented reality. Developed out of a
formative study that included seven users and three experts, our system
combines a customized error calibration model with a few-shot prompt to
integrate the syntactic, lexical, elaborative, and content simplification
techniques, and generate simplified AR text for head-worn displays. Results
from a 16-user empirical study showed that ARTiST lightens the cognitive load
and improves performance significantly over both unmodified text and text
modified via traditional methods. Our work constitutes a step towards
automating the optimization of batch text data for readability and performance
in augmented reality.
- Abstract(参考訳): 拡張現実で提示されたテキストは、ユーザーに対してその場でリアルタイム情報を提供する。
しかし、このコンテンツは、特にヘッドマウントディスプレイ上でarタスクを認知的に要求する場合、素早く理解することが難しい可能性がある。
本稿では,arのためのテキスト長と意味コンテンツの最適化のために,数ショットプロンプトモデルとgpt-3モデルを用いたテキスト簡易化システムであるartistを提案する。
7名のユーザと3名のエキスパートを含むフォーマティブな研究から開発されたこのシステムは、カスタマイズされたエラーキャリブレーションモデルと、数発のプロンプトを組み合わせることで、構文的、語彙的、詳細的、およびコンテンツ単純化技術を統合し、ヘッドワーンディスプレイ用の簡易arテキストを生成する。
16ユーザを対象にした実証実験の結果,ARTiSTは認知負荷を軽減し,従来の手法で修正した未修正テキストとテキストの両方よりも性能を向上することがわかった。
我々の研究は、拡張現実における可読性と性能のためのバッチテキストデータの最適化を自動化するためのステップを構成する。
関連論文リスト
- An efficient text augmentation approach for contextualized Mandarin speech recognition [4.600045052545344]
本研究は、テキストのみのデータセットを活用し、事前学習されたASRモデルを文脈化することを提案する。
事前学習したCIFベースのASRを文脈化するために,限られた音声テキストデータを用いたコードブックを構築した。
多様なマンダリンテストセットに対する実験により,我々のTAアプローチは認識性能を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-06-14T11:53:14Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - Semantic-aware Video Representation for Few-shot Action Recognition [1.6486717871944268]
本稿では,これらの問題に対処するシンプルなセマンティック・アウェア・フューショット・アクション認識(SAFSAR)モデルを提案する。
提案手法は,3次元特徴抽出器と効果的な特徴融合方式を併用し,分類のための単純なコサイン類似性により,より優れた性能が得られることを示す。
様々な条件下での5つの挑戦的な数発アクション認識ベンチマークの実験により、提案したSAFSARモデルが最先端の性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-11-10T18:13:24Z) - ARTIST: ARTificial Intelligence for Simplified Text [5.095775294664102]
テキスト単純化は、テキストの言語的複雑さを減らすことを目的とした、自然言語処理の重要なタスクである。
生成人工知能(AI)の最近の進歩により、語彙レベルと構文レベルの両方で自動テキストの簡略化が可能になった。
論文 参考訳(メタデータ) (2023-08-25T16:06:06Z) - TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。
TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。
分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文 参考訳(メタデータ) (2023-06-06T03:37:41Z) - X-Mesh: Towards Fast and Accurate Text-driven 3D Stylization via Dynamic
Textual Guidance [70.08635216710967]
X-Meshはテキスト駆動型3Dスタイリングフレームワークで、新しいテキスト誘導動的注意モジュールを備えている。
我々は、新しい標準テキストメシュベンチマーク、MIT-30と2つの自動メトリクスを導入し、将来の研究が公正で客観的な比較を達成できるようにする。
論文 参考訳(メタデータ) (2023-03-28T06:45:31Z) - Informative Text Generation from Knowledge Triples [56.939571343797304]
本稿では,トレーニング中に学習した有用な知識を記憶するために,メモリネットワークを利用した新しいメモリ拡張ジェネレータを提案する。
我々は、新しい設定のためのWebNLGからデータセットを導き、我々のモデルの有効性を調べるための広範な実験を行う。
論文 参考訳(メタデータ) (2022-09-26T14:35:57Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。