論文の概要: Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People
- arxiv url: http://arxiv.org/abs/2403.15604v1
- Date: Fri, 22 Mar 2024 20:16:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 21:51:43.650087
- Title: Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People
- Title(参考訳): 盲人・低視者のためのAIによるシーン記述アプリケーションの利用事例調査
- Authors: Ricardo Gonzalez, Jazmin Collins, Shiri Azenkot, Cynthia Bennett,
- Abstract要約: 視覚障害者(BLV)にとって「シーン記述」の応用は有用な日常ツールである。
我々は,16人のBLV参加者がAIを用いたシーン記述アプリケーションを使用した2週間の日記調査を行った。
既知のオブジェクトの視覚的特徴を識別するなどのユースケースや、危険なオブジェクトとの接触を避けるような驚くべきユースケースが頻繁に見出されました。
- 参考スコア(独自算出の注目度): 2.980933566660353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: "Scene description" applications that describe visual content in a photo are useful daily tools for blind and low vision (BLV) people. Researchers have studied their use, but they have only explored those that leverage remote sighted assistants; little is known about applications that use AI to generate their descriptions. Thus, to investigate their use cases, we conducted a two-week diary study where 16 BLV participants used an AI-powered scene description application we designed. Through their diary entries and follow-up interviews, users shared their information goals and assessments of the visual descriptions they received. We analyzed the entries and found frequent use cases, such as identifying visual features of known objects, and surprising ones, such as avoiding contact with dangerous objects. We also found users scored the descriptions relatively low on average, 2.76 out of 5 (SD=1.49) for satisfaction and 2.43 out of 4 (SD=1.16) for trust, showing that descriptions still need significant improvements to deliver satisfying and trustworthy experiences. We discuss future opportunities for AI as it becomes a more powerful accessibility tool for BLV users.
- Abstract(参考訳): 写真中の視覚内容を記述する「シーン記述」アプリケーションは、視覚障害者(BLV)にとって有用な日常ツールである。
研究者は彼らの使用について研究してきたが、リモートで目撃されたアシスタントを利用するもののみを探索した。
そこで我々は16人のBLV参加者を対象に,AIを活用したシーン記述アプリケーションを用いた2週間の日誌調査を行った。
ダイアログのエントリとフォローアップインタビューを通じて、ユーザは、受け取った視覚的記述に関する情報目標と評価を共有した。
対象物体の視覚的特徴の同定や,危険な物体との接触を回避できるような驚きの事例について分析し,頻繁な使用例を見出した。
また,満足度は5点中2.76点(SD=1.49点),信頼度は4点中2.43点(SD=1.16点)と比較的低かった。
BLVユーザにとってより強力なアクセシビリティツールになるにつれて、AIの将来的な機会について論じる。
関連論文リスト
- MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。
MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。
その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文 参考訳(メタデータ) (2024-10-10T17:55:02Z) - Fiper: a Visual-based Explanation Combining Rules and Feature Importance [3.2982707161882967]
説明可能な人工知能は、いわゆるブラックボックスアルゴリズムの予測を説明するツールとテクニックを設計することを目的としている。
本稿では,特徴量と組み合わせたルールを視覚的に記述する手法を提案する。
論文 参考訳(メタデータ) (2024-04-25T09:15:54Z) - Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。
これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。
本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文 参考訳(メタデータ) (2024-04-06T05:59:02Z) - Farsight: Fostering Responsible AI Awareness During AI Application Prototyping [32.235398722593544]
私たちはFarsightという、プロトタイピング中のAIアプリケーションから潜在的な害を識別する新しい対話型ツールを紹介します。
ユーザのプロンプトに基づいて、Farsightは関連するAIインシデントに関するニュース記事を強調し、LLM生成したユースケースやステークホルダ、障害を調査、編集することを可能にする。
10人のAIプロトタイプを用いた共同設計研究と42人のAIプロトタイプを用いたユーザスタディから得られた知見を報告する。
論文 参考訳(メタデータ) (2024-02-23T14:38:05Z) - Selective Visual Representations Improve Convergence and Generalization
for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。
これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。
人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文 参考訳(メタデータ) (2023-11-07T18:34:02Z) - Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。
我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文 参考訳(メタデータ) (2023-08-22T04:24:45Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Leveraging Visual Knowledge in Language Tasks: An Empirical Study on
Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。
実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文 参考訳(メタデータ) (2022-03-14T22:02:40Z) - One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。
我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。
複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文 参考訳(メタデータ) (2021-08-08T14:53:10Z) - I-ViSE: Interactive Video Surveillance as an Edge Service using
Unsupervised Feature Queries [70.69741666849046]
本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。
I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。
論文 参考訳(メタデータ) (2020-03-09T14:26:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。