論文の概要: WorldScribe: Towards Context-Aware Live Visual Descriptions
- arxiv url: http://arxiv.org/abs/2408.06627v1
- Date: Tue, 13 Aug 2024 04:32:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-14 18:36:27.443560
- Title: WorldScribe: Towards Context-Aware Live Visual Descriptions
- Title(参考訳): WorldScribe: コンテキスト対応のライブビジュアル記述を目指して
- Authors: Ruei-Che Chang, Yuxuan Liu, Anhong Guo,
- Abstract要約: 我々は,ユーザのコンテキストに適応してカスタマイズ可能な実世界のビジュアル記述を自動的に生成するシステムであるWorldScribeを開発した。
WorldScribeは、視覚、言語、および音声認識モデルを組み合わせて、リアルタイム使用をサポートする記述生成パイプラインを導入している。
- 参考スコア(独自算出の注目度): 11.386457160697384
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Automated live visual descriptions can aid blind people in understanding their surroundings with autonomy and independence. However, providing descriptions that are rich, contextual, and just-in-time has been a long-standing challenge in accessibility. In this work, we develop WorldScribe, a system that generates automated live real-world visual descriptions that are customizable and adaptive to users' contexts: (i) WorldScribe's descriptions are tailored to users' intents and prioritized based on semantic relevance. (ii) WorldScribe is adaptive to visual contexts, e.g., providing consecutively succinct descriptions for dynamic scenes, while presenting longer and detailed ones for stable settings. (iii) WorldScribe is adaptive to sound contexts, e.g., increasing volume in noisy environments, or pausing when conversations start. Powered by a suite of vision, language, and sound recognition models, WorldScribe introduces a description generation pipeline that balances the tradeoffs between their richness and latency to support real-time use. The design of WorldScribe is informed by prior work on providing visual descriptions and a formative study with blind participants. Our user study and subsequent pipeline evaluation show that WorldScribe can provide real-time and fairly accurate visual descriptions to facilitate environment understanding that is adaptive and customized to users' contexts. Finally, we discuss the implications and further steps toward making live visual descriptions more context-aware and humanized.
- Abstract(参考訳): 視覚的自動記述は、視覚障害者が周囲の自律性と独立性を理解するのに役立つ。
しかし、リッチでコンテキストがあり、ジャスト・イン・タイムな記述を提供することは、アクセシビリティーにおける長年にわたる課題である。
本研究では,ユーザのコンテキストに合わせてカスタマイズ可能な実世界の視覚的記述自動生成システムであるWorldScribeを開発する。
(i)WorldScribeの記述はユーザの意図に合わせて調整され,セマンティックな関連性に基づいて優先順位付けされる。
(ii)WorldScribeは視覚的コンテキストに適応し、動的シーンの簡潔な説明を連続的に提供し、安定した設定のためにより長く詳細な記述を提示する。
(三)WorldScribeは、音環境に適応し、例えば、騒々しい環境での音量増加、会話開始時の一時停止を図っている。
WorldScribeは、視覚、言語、および音声認識モデルを組み合わせて、リッチさとレイテンシのトレードオフをバランスさせてリアルタイム使用をサポートするための記述生成パイプラインを導入している。
WorldScribeの設計は、視覚的な記述と、盲目の参加者に形式的な研究を提供することに関する以前の研究によって通知される。
ユーザ調査およびその後のパイプライン評価により,WorldScribeは,ユーザのコンテキストに適応してカスタマイズされた環境理解を容易にするために,リアルタイムかつかなり正確な視覚的記述を提供することができることがわかった。
最後に、実写の視覚的記述をよりコンテキストに意識し、人間化されたものにするための意味とさらなるステップについて論じる。
関連論文リスト
- A transition towards virtual representations of visual scenes [1.4201040196058878]
視覚的シーン理解は、視覚データから意味のある情報を抽出することを目的とした、コンピュータビジョンの基本的なタスクである。
本稿では3次元仮想合成に向けた視覚的シーン理解と記述の課題に対処するアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T14:41:04Z) - AIris: An AI-powered Wearable Assistive Device for the Visually Impaired [0.0]
AIを利用したウェアラブルデバイスであるAIrisを導入し、視覚障害者に環境認識とインタラクション機能を提供する。
我々は,実環境下で効果的に動作する機能プロトタイプシステムを開発した。
論文 参考訳(メタデータ) (2024-05-13T10:09:37Z) - Dynamic Typography: Bringing Text to Life via Video Diffusion Prior [73.72522617586593]
動的タイポグラフィー(Dynamic Typography)と呼ばれる自動テキストアニメーション方式を提案する。
意味的意味を伝えるために文字を変形させ、ユーザプロンプトに基づいて活気ある動きを注入する。
本手法は,ベクトルグラフィックス表現とエンドツーエンド最適化に基づくフレームワークを利用する。
論文 参考訳(メタデータ) (2024-04-17T17:59:55Z) - VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。
第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。
第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文 参考訳(メタデータ) (2024-04-10T15:09:15Z) - Learning to Model the World with Language [100.76069091703505]
人間と対話し、世界で行動するためには、エージェントは人々が使用する言語の範囲を理解し、それを視覚の世界に関連付ける必要がある。
私たちのキーとなるアイデアは、エージェントが将来を予測するのに役立つ信号として、このような多様な言語を解釈すべきである、ということです。
我々は、将来のテキストや画像表現を予測するマルチモーダル世界モデルを学ぶエージェントであるDynalangでこれをインスタンス化する。
論文 参考訳(メタデータ) (2023-07-31T17:57:49Z) - DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual
Language Grounding [10.036997080009462]
DRAGONは対話システムと環境と自然言語を関連付ける能力を備えた誘導ロボットである。
ユーザからのコマンドを理解することで、DRAGONはユーザを地図上の望ましいランドマークに誘導し、環境を記述し、視覚的な観察から質問に答えることができる。
本研究は,DRAGONがユーザと円滑にコミュニケーションし,優れたガイド体験を提供し,ユーザと周囲環境を直感的に接続できることを実証するものである。
論文 参考訳(メタデータ) (2023-07-13T17:46:15Z) - CLEAR: Improving Vision-Language Navigation with Cross-Lingual,
Environment-Agnostic Representations [98.30038910061894]
VLN(Vision-and-Language Navigation)タスクでは、エージェントが言語命令に基づいて環境をナビゲートする必要がある。
CLEAR: 言語横断表現と環境非依存表現を提案する。
我々の言語と視覚表現は、Room-to-Room and Cooperative Vision-and-Dialogue Navigationタスクにうまく転送できる。
論文 参考訳(メタデータ) (2022-07-05T17:38:59Z) - Accessible Visualization via Natural Language Descriptions: A Four-Level
Model of Semantic Content [6.434361163743876]
可視化の自然言語記述によって伝達されるセマンティックコンテンツの概念モデルを提案する。
視覚障害者30名,視覚障害者90名を対象に,混合手法による評価を行い,どのセマンティック・コンテンツが最も有用か,それぞれに有意差が認められた。
論文 参考訳(メタデータ) (2021-10-08T23:37:25Z) - Enabling Robots to Draw and Tell: Towards Visually Grounded Multimodal
Description Generation [1.52292571922932]
社会的に有能なロボットは、それらを取り囲む世界を知覚し、人間的な方法でそれについてコミュニケーションする能力を備えるべきである。
そのような能力を示す代表的スキルには、画像記述の生成と視覚的に接地した参照表現が含まれる。
本稿では,自然言語生成のタスクと,視覚シーンや実物を記述するためのフリーハンドスケッチ/ハンドジェスチャを併用してモデル化する。
論文 参考訳(メタデータ) (2021-01-14T23:40:23Z) - AEGIS: A real-time multimodal augmented reality computer vision based
system to assist facial expression recognition for individuals with autism
spectrum disorder [93.0013343535411]
本稿では,コンピュータビジョンと深部畳み込みニューラルネットワーク(CNN)を組み合わせたマルチモーダル拡張現実(AR)システムの開発について述べる。
提案システムはAIGISと呼ばれ,タブレット,スマートフォン,ビデオ会議システム,スマートグラスなど,さまざまなユーザデバイスにデプロイ可能な支援技術である。
我々は空間情報と時間情報の両方を活用して正確な表現予測を行い、それを対応する可視化に変換し、元のビデオフレーム上に描画する。
論文 参考訳(メタデータ) (2020-10-22T17:20:38Z) - COBE: Contextualized Object Embeddings from Narrated Instructional Video [52.73710465010274]
そこで本稿では,教師ビデオの自動書き起こしからコンテキスト適応型オブジェクト埋め込みを学習するための新しいフレームワークを提案する。
言語の意味的・構成的構造を視覚的検知器を訓練し,オブジェクトとその関連するナレーションの文脈的単語埋め込みを予測する。
実験の結果,検出器は多種多様なコンテキストオブジェクト情報を予測し,少数ショットおよびゼロショット学習の設定において極めて有効であることがわかった。
論文 参考訳(メタデータ) (2020-07-14T19:04:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。