論文の概要: TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model
- arxiv url: http://arxiv.org/abs/2404.09254v1
- Date: Sun, 14 Apr 2024 13:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 14:48:15.285112
- Title: TEXT2TASTE: A Versatile Egocentric Vision System for Intelligent Reading Assistance Using Large Language Model
- Title(参考訳): TEXT2TASTE:大規模言語モデルを用いた知的読解支援システム
- Authors: Wiktor Mucha, Florin Cuconasu, Naome A. Etori, Valia Kalokyri, Giovanni Trappolini,
- Abstract要約: 組込みRGBカメラとLarge Language Model(LLM)を用いたスマートグラスを用いたインテリジェントリーディングアシスタントを提案する。
眼鏡をかけている人の自我中心から見た映像を処理し、オブジェクト検出と光学文字認識方法を用いてテキスト情報をローカライズする。
LLMはデータを処理し、ユーザはテキストと対話し、所定のクエリに応答し、修正レンズの機能を拡張する。
- 参考スコア(独自算出の注目度): 2.2469442203227863
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The ability to read, understand and find important information from written text is a critical skill in our daily lives for our independence, comfort and safety. However, a significant part of our society is affected by partial vision impairment, which leads to discomfort and dependency in daily activities. To address the limitations of this part of society, we propose an intelligent reading assistant based on smart glasses with embedded RGB cameras and a Large Language Model (LLM), whose functionality goes beyond corrective lenses. The video recorded from the egocentric perspective of a person wearing the glasses is processed to localise text information using object detection and optical character recognition methods. The LLM processes the data and allows the user to interact with the text and responds to a given query, thus extending the functionality of corrective lenses with the ability to find and summarize knowledge from the text. To evaluate our method, we create a chat-based application that allows the user to interact with the system. The evaluation is conducted in a real-world setting, such as reading menus in a restaurant, and involves four participants. The results show robust accuracy in text retrieval. The system not only provides accurate meal suggestions but also achieves high user satisfaction, highlighting the potential of smart glasses and LLMs in assisting people with special needs.
- Abstract(参考訳): 文章から重要な情報を読み、理解し、見つけ出す能力は、我々の独立、快適、安全のために日々の生活において重要なスキルである。
しかし、我々の社会のかなりの部分は部分的な視覚障害の影響を受けており、日常生活における不快感や依存につながっている。
社会のこの部分の限界に対処するため,RGBカメラを内蔵したスマートグラスと,補正レンズを超越したLarge Language Model (LLM) を用いたインテリジェントリーディングアシスタントを提案する。
眼鏡をかけている人の自我中心から見た映像を処理し、オブジェクト検出と光学文字認識方法を用いてテキスト情報をローカライズする。
LLMはデータを処理し、ユーザがテキストと対話し、所定のクエリに応答できるようにする。
提案手法を評価するために,ユーザがシステムと対話できるチャットベースのアプリケーションを開発した。
評価は、レストランのメニューを読むなどの現実世界の設定で行われ、4人の参加者が参加する。
その結果,テキスト検索の精度は良好であった。
このシステムは、正確な食事提案を提供するだけでなく、ユーザー満足度も高く、特殊なニーズを持つ人々を支援するためのスマートグラスやLCMの可能性を強調している。
関連論文リスト
- AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Interactive Analysis of LLMs using Meaningful Counterfactuals [22.755345889167934]
カウンターファクト例は、機械学習モデルの意思決定境界を探索するのに有用である。
LLMの分析・説明に反事実的手法をどう適用すればいいのか?
本稿では,完全かつ意味のあるテキストの反事実のバッチを生成するための新しいアルゴリズムを提案する。
我々の実験では、カウンターファクトの97.2%が文法的に正しい。
論文 参考訳(メタデータ) (2024-04-23T19:57:03Z) - Analyzing the Roles of Language and Vision in Learning from Limited Data [31.895396236504993]
我々は、言語とビジョンが世界について学ぶために与える貢献について研究する。
すべてのコンポーネントを活用する言語モデルがビジョンランゲージモデルの性能の大部分を回復することがわかった。
論文 参考訳(メタデータ) (2024-02-15T22:19:41Z) - Integrating Language-Derived Appearance Elements with Visual Cues in Pedestrian Detection [51.66174565170112]
本研究では,大言語モデルの強みを文脈的外見の変化の理解に活用するための新しいアプローチを提案する。
本稿では,言語由来の外観要素を定式化し,歩行者検出に視覚的手がかりを取り入れることを提案する。
論文 参考訳(メタデータ) (2023-11-02T06:38:19Z) - TouchStone: Evaluating Vision-Language Models by Language Models [91.69776377214814]
本稿では,LVLMの様々な能力を総合的に評価するために,強大な言語モデルを用いた評価手法を提案する。
オープンワールドイメージと質問からなる包括的ビジュアル対話データセットTouchStoneを構築し,5つの主要な機能カテゴリと27のサブタスクをカバーした。
GPT-4のような強力なLVLMは、テキスト機能のみを活用することで、対話品質を効果的に評価できることを実証する。
論文 参考訳(メタデータ) (2023-08-31T17:52:04Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - VisBuddy -- A Smart Wearable Assistant for the Visually Challenged [0.0]
VisBuddyは音声ベースのアシスタントで、ユーザーは音声コマンドで特定のタスクを実行することができる。
ユーザの周囲を記述するための画像キャプション技術、ユーザの視点でテキストを読み取るための光学文字認識(OCR)、部屋内のオブジェクトを検索して見つけるためのオブジェクト検出、最新のニュースを提供するためのWebスクレイピングを使用する。
論文 参考訳(メタデータ) (2021-08-17T17:15:23Z) - Readability Research: An Interdisciplinary Approach [62.03595526230364]
我々は,可読性研究の包括的枠組みである可読性研究のための強固な基盤を提供することを目指している。
可読性(Readability)とは、ページから読み手への情報フローに影響を与える視覚情報設計の側面を指す。
これらのアスペクトはオンデマンドで修正可能で、読み手がテキストから処理し、意味を導き出すのが簡単になる。
論文 参考訳(メタデータ) (2021-07-20T16:52:17Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。