論文の概要: Towards Context-aware Support for Color Vision Deficiency: An Approach Integrating LLM and AR
- arxiv url: http://arxiv.org/abs/2407.04362v1
- Date: Fri, 5 Jul 2024 09:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 14:00:02.019002
- Title: Towards Context-aware Support for Color Vision Deficiency: An Approach Integrating LLM and AR
- Title(参考訳): 色覚障害に対するコンテキスト認識支援に向けて:LLMとARを統合したアプローチ
- Authors: Shogo Morita, Yan Zhang, Takuto Yamauchi, Sinan Chen, Jialong Li, Kenji Tei,
- Abstract要約: 色覚障害を持つ人は、しばしば赤や緑のような色を区別する際の課題に直面します。
現在のサポートツールは、主にiPhoneのアクセシビリティ設定にある色覚モードなど、プレゼンテーションベースの支援に焦点を当てている。
本稿では,文脈支援と自律支援を提供するアプリケーションを提案する。
- 参考スコア(独自算出の注目度): 2.4560886170097573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: People with color vision deficiency often face challenges in distinguishing colors such as red and green, which can complicate daily tasks and require the use of assistive tools or environmental adjustments. Current support tools mainly focus on presentation-based aids, like the color vision modes found in iPhone accessibility settings. However, offering context-aware support, like indicating the doneness of meat, remains a challenge since task-specific solutions are not cost-effective for all possible scenarios. To address this, our paper proposes an application that provides contextual and autonomous assistance. This application is mainly composed of: (i) an augmented reality interface that efficiently captures context; and (ii) a multi-modal large language model-based reasoner that serves to cognitize the context and then reason about the appropriate support contents. Preliminary user experiments with two color vision deficient users across five different scenarios have demonstrated the effectiveness and universality of our application.
- Abstract(参考訳): 色覚障害を持つ人は、赤や緑などの色を区別する上で困難に直面することが多く、日々の作業が複雑になり、補助具や環境調整が必要とされる。
現在のサポートツールは、主にiPhoneのアクセシビリティ設定にある色覚モードなど、プレゼンテーションベースの支援に焦点を当てている。
しかしながら、タスク固有のソリューションがすべてのシナリオに対して費用対効果がないため、肉の完成度を示すようなコンテキスト対応のサポートの提供は依然として課題である。
そこで本稿では,文脈的・自律的な支援を行うアプリケーションを提案する。
この用途は主に以下の通りである。
(i)コンテキストを効率的にキャプチャする拡張現実インターフェース、及び
(二) 文脈を認識し、適切なサポート内容について推論する多モーダルな大規模言語モデルに基づく推論器。
5つのシナリオにまたがる2つの色覚欠損ユーザによる予備的なユーザ実験により、アプリケーションの有効性と普遍性を実証した。
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - @Bench: Benchmarking Vision-Language Models for Human-centered Assistive Technology [31.779074930032184]
視覚障害者を支援するための人間中心補助技術(AT)は、複数のタスクを同時に実行することのできるジェネラリストへと進化している。
われわれはまず、PVIsで事前設計されたユーザースタディによってガイドされた新しいATベンチマーク(@Bench)を作成する。
さらに、全てのタスクを同時に処理し、PVIを支援するためにより補助的な機能に拡張できる新しいATモデル(@Model)を提案する。
論文 参考訳(メタデータ) (2024-09-21T18:30:17Z) - StrucTexTv3: An Efficient Vision-Language Model for Text-rich Image Perception, Comprehension, and Beyond [68.0107158115377]
我々は、テキストリッチな画像のための様々なインテリジェントなタスクに取り組むために、効率的な視覚言語モデルStrucTexTv3を開発した。
学習を通してStrucTexTv3の知覚と理解能力を高める。
提案手法は,テキストに富んだ画像認識タスクでSOTAを達成し,理解タスクの性能を大幅に向上させた。
論文 参考訳(メタデータ) (2024-05-31T16:55:04Z) - SoMeLVLM: A Large Vision Language Model for Social Media Processing [78.47310657638567]
ソーシャルメディア処理のための大規模ビジョン言語モデル(SoMeLVLM)を提案する。
SoMeLVLMは、知識と理解、応用、分析、評価、作成を含む5つの重要な機能を備えた認知フレームワークである。
実験により,複数のソーシャルメディアタスクにおいて,SoMeLVLMが最先端のパフォーマンスを達成できることが実証された。
論文 参考訳(メタデータ) (2024-02-20T14:02:45Z) - Improving In-Context Learning in Diffusion Models with Visual
Context-Modulated Prompts [83.03471704115786]
本研究では,改良型プロンプト拡散(iPromptDiff)を紹介する。
iPromptDiffは、視覚コンテキストを埋め込みベクトルに変換するエンドツーエンドのトレーニングされた視覚エンコーダを統合する。
拡散に基づく視覚基盤モデルにおいて,この視覚的文脈変調テキストガイダンスと標準制御ネット構造を組み込んだ場合,多種多様な学習課題における多目的性と堅牢性を示すことを示す。
論文 参考訳(メタデータ) (2023-12-03T14:15:52Z) - Chat-UniVi: Unified Visual Representation Empowers Large Language Models with Image and Video Understanding [55.65727739645824]
Chat-UniViは、画像やビデオを含む会話を解釈し、関与できる統一ビジョン言語モデルである。
画像やビデオを一様に表現するために、ダイナミックな視覚トークンのセットを使用します。
我々はマルチスケール表現を活用し、モデルが高レベルなセマンティック概念と低レベルな視覚的詳細の両方を知覚できるようにする。
論文 参考訳(メタデータ) (2023-11-14T10:11:36Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - Personalizing image enhancement for critical visual tasks: improved
legibility of papyri using color processing and visual illusions [0.0]
方法: ユーザ体験実験において, 色処理と視覚錯覚に基づく新しい拡張アルゴリズムを古典的手法と比較する。
ユーザは、パーソナリティや社会的条件、タスクとアプリケーションドメイン、専門レベルと画質、ソフトウェア、ハードウェア、インターフェースの余裕などの影響を受けながら、幅広い行動スペクトルを示しました。
論文 参考訳(メタデータ) (2021-03-11T23:48:17Z) - Real-time single image depth perception in the wild with handheld
devices [45.26484111468387]
主な2つの問題は、電球内のハンドヘルドデバイスからの深さ推定を制限している。
適切なネットワーク設計とトレーニング戦略を採用する上で,どちらも対処可能な方法を示す。
実時間深度認識型拡張現実とスマートフォンによる画像ぼやけに関する実験結果について報告する。
論文 参考訳(メタデータ) (2020-06-10T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。