Fugu-MT 論文翻訳(概要): Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People

論文の概要: Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People

arxiv url: http://arxiv.org/abs/2403.15604v1
Date: Fri, 22 Mar 2024 20:16:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-26 21:51:43.650087
Title: Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People
Title（参考訳）: 盲人・低視者のためのAIによるシーン記述アプリケーションの利用事例調査
Authors: Ricardo Gonzalez, Jazmin Collins, Shiri Azenkot, Cynthia Bennett,
Abstract要約: 視覚障害者(BLV)にとって「シーン記述」の応用は有用な日常ツールである。我々は,16人のBLV参加者がAIを用いたシーン記述アプリケーションを使用した2週間の日記調査を行った。既知のオブジェクトの視覚的特徴を識別するなどのユースケースや、危険なオブジェクトとの接触を避けるような驚くべきユースケースが頻繁に見出されました。
参考スコア（独自算出の注目度）: 2.980933566660353
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: "Scene description" applications that describe visual content in a photo are useful daily tools for blind and low vision (BLV) people. Researchers have studied their use, but they have only explored those that leverage remote sighted assistants; little is known about applications that use AI to generate their descriptions. Thus, to investigate their use cases, we conducted a two-week diary study where 16 BLV participants used an AI-powered scene description application we designed. Through their diary entries and follow-up interviews, users shared their information goals and assessments of the visual descriptions they received. We analyzed the entries and found frequent use cases, such as identifying visual features of known objects, and surprising ones, such as avoiding contact with dangerous objects. We also found users scored the descriptions relatively low on average, 2.76 out of 5 (SD=1.49) for satisfaction and 2.43 out of 4 (SD=1.16) for trust, showing that descriptions still need significant improvements to deliver satisfying and trustworthy experiences. We discuss future opportunities for AI as it becomes a more powerful accessibility tool for BLV users.
Abstract（参考訳）: 写真中の視覚内容を記述する「シーン記述」アプリケーションは、視覚障害者(BLV)にとって有用な日常ツールである。研究者は彼らの使用について研究してきたが、リモートで目撃されたアシスタントを利用するもののみを探索した。そこで我々は16人のBLV参加者を対象に,AIを活用したシーン記述アプリケーションを用いた2週間の日誌調査を行った。ダイアログのエントリとフォローアップインタビューを通じて、ユーザは、受け取った視覚的記述に関する情報目標と評価を共有した。対象物体の視覚的特徴の同定や,危険な物体との接触を回避できるような驚きの事例について分析し,頻繁な使用例を見出した。また,満足度は5点中2.76点(SD=1.49点),信頼度は4点中2.43点(SD=1.16点)と比較的低かった。 BLVユーザにとってより強力なアクセシビリティツールになるにつれて、AIの将来的な機会について論じる。

関連論文リスト

Analyzing Character Representation in Media Content using Multimodal Foundation Model: Effectiveness and Trust [7.985473318714565]
人口統計次元に沿った文字分布が利用できるとしても、一般大衆にどの程度役に立つのか? 我々の研究は、新しいAIベースの文字表現と可視化ツールを提案しながら、ユーザースタディを通じてこれらの疑問に対処する。比較言語画像事前学習(CLIP)基盤モデルを用いて視覚的画面データを解析し,年齢と性別の次元で文字表現を定量化する。
論文参考訳（メタデータ） (2025-06-02T13:46:28Z)
Sightation Counts: Leveraging Sighted User Feedback in Building a BLV-aligned Dataset of Diagram Descriptions [5.6629291915019975]
視覚言語モデル(VLM)が生み出す図形記述(ダイアグラム記述)を評価することを求める。 Sightationは、5kのダイアグラムと137kのサンプルからなるダイアグラム記述データセットのコレクションで、完成、選好、検索、質問応答、推論トレーニングの目的でリリースします。
論文参考訳（メタデータ） (2025-03-17T16:52:46Z)
Towards Understanding the Use of MLLM-Enabled Applications for Visual Interpretation by Blind and Low Vision People [2.2369578015657954]
マルチモーダル大言語モデル (MLLM) は視覚解釈アプリケーションに統合されている。 20名のBlind and Low Vision (BLV) 者がMLLM対応視覚解釈アプリケーションを用いた2週間の日記調査を行った。参加者はアプリケーションの視覚的解釈を信頼でき満足できるものとみなした。
論文参考訳（メタデータ） (2025-03-07T19:38:14Z)
Can LVLMs and Automatic Metrics Capture Underlying Preferences of Blind and Low-Vision Individuals for Navigational Aid? [16.31494394717809]
Blind and Low-Vision (BLV) の人々は周囲、特に馴染みの無い環境での理解を支援する必要がある。 LVLM(Large Vision-Language Models)の多様なタイプやスタイルの応答に対するBLVユーザの嗜好についてはまだ研究されていない。最初にEye4Bデータセットを構築し,人間による評価1.1kの屋外/屋内シーンと,シーン毎に5～10の関連要求を処理した。次に,8人のBLVユーザによる詳細なユーザスタディを行い,6つのLVLM(Afraidness, Nonactionability, Sufficiency, Conciseness)の視点で好みを評価する。
論文参考訳（メタデータ） (2025-02-15T10:17:52Z)
MRAG-Bench: Vision-Centric Evaluation for Retrieval-Augmented Multimodal Models [115.16022378880376]
MRAG-Benchというマルチモーダル検索拡張生成ベンチマークを導入する。 MRAG-Benchは16,130枚の画像と1,353個の人間による複数の質問からなる。その結果,すべての大規模視覚言語モデル (LVLM) は,テキスト知識と比較して画像で拡張すると改善が見られた。
論文参考訳（メタデータ） (2024-10-10T17:55:02Z)
Fiper: a Visual-based Explanation Combining Rules and Feature Importance [3.2982707161882967]
説明可能な人工知能は、いわゆるブラックボックスアルゴリズムの予測を説明するツールとテクニックを設計することを目的としている。本稿では,特徴量と組み合わせたルールを視覚的に記述する手法を提案する。
論文参考訳（メタデータ） (2024-04-25T09:15:54Z)
Joint Visual and Text Prompting for Improved Object-Centric Perception with Multimodal Large Language Models [22.545127591893028]
GPT-4VやGemini Proのようなマルチモーダル大言語モデル(MLLM)は、視覚質問回答(VQA)における人間レベルの認識の実現に課題に直面している。これは主に、複雑な視覚的手がかりをテキスト情報や潜在的対象幻覚と効果的に統合する能力に制限があるためである。本稿では,VQAにおけるMLLMの能力を高めるために,きめ細かい視覚情報を利用する新しいアプローチであるジョイント・ビジュアル・テキスト・プロンプティング(VTPrompt)を提案する。
論文参考訳（メタデータ） (2024-04-06T05:59:02Z)
Farsight: Fostering Responsible AI Awareness During AI Application Prototyping [32.235398722593544]
私たちはFarsightという、プロトタイピング中のAIアプリケーションから潜在的な害を識別する新しい対話型ツールを紹介します。ユーザのプロンプトに基づいて、Farsightは関連するAIインシデントに関するニュース記事を強調し、LLM生成したユースケースやステークホルダ、障害を調査、編集することを可能にする。 10人のAIプロトタイプを用いた共同設計研究と42人のAIプロトタイプを用いたユーザスタディから得られた知見を報告する。
論文参考訳（メタデータ） (2024-02-23T14:38:05Z)
Selective Visual Representations Improve Convergence and Generalization for Embodied AI [44.33711781750707]
身体化されたAIモデルは、CLIPのような棚の視覚バックボーンを使って視覚的な観察をエンコードすることが多い。これは学習プロセス内のノイズを導入し、タスク関連視覚的手がかりからエージェントの焦点を逸脱させる。人間が経験、知識、課題に基づいて知覚をフィルタリングするプロセスにおいて、人間の選択的な注意を喚起して、我々は、具体化されたAIのための視覚刺激をフィルタリングするためのパラメータ効率の良いアプローチを導入する。
論文参考訳（メタデータ） (2023-11-07T18:34:02Z)
Knowledge-Aware Prompt Tuning for Generalizable Vision-Language Models [64.24227572048075]
本稿では,視覚言語モデルのためのKnowledge-Aware Prompt Tuning(KAPT)フレームワークを提案する。我々のアプローチは、人間の知性からインスピレーションを得ており、外部知識は、通常、オブジェクトの新たなカテゴリを認識するために組み込まれています。
論文参考訳（メタデータ） (2023-08-22T04:24:45Z)
Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文参考訳（メタデータ） (2022-11-10T21:44:33Z)
Leveraging Visual Knowledge in Language Tasks: An Empirical Study on Intermediate Pre-training for Cross-modal Knowledge Transfer [61.34424171458634]
視覚的知識を言語モデルに組み込むことがギャップを埋めるかどうかを検討する。実験の結果,視覚的知識伝達は低リソース環境と完全教師付き環境の両方で性能を向上できることがわかった。
論文参考訳（メタデータ） (2022-03-14T22:02:40Z)
One-Shot Object Affordance Detection in the Wild [76.46484684007706]
Affordance Detectionは、画像内のオブジェクトの潜在的なアクション可能性を特定することを指す。我々は、人間の行動目的を推定し、それを転送して、すべての候補画像から共通価格を検出するワンショットアフォーダンス検出ネットワーク(OSAD-Net)を考案する。複雑なシーンと豊富なアノテーションによって、当社のPADv2データセットは、アベイランス検出メソッドをベンチマークするためのテストベッドとして使用することができます。
論文参考訳（メタデータ） (2021-08-08T14:53:10Z)
I-ViSE: Interactive Video Surveillance as an Edge Service using Unsupervised Feature Queries [70.69741666849046]
本稿では、教師なし機能クエリに基づくエッジサービス(I-ViSE)としてインタラクティブビデオ監視を提案する。 I-ViSEのプロトタイプはエッジフォッグコンピューティングのパラダイムに従って構築され、実験により、I-ViSE方式がシーン認識の設計目標を2秒以内で満たすことを確認した。
論文参考訳（メタデータ） (2020-03-09T14:26:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。