論文の概要: Can ChatGPT assist visually impaired people with micro-navigation?
- arxiv url: http://arxiv.org/abs/2408.08321v1
- Date: Wed, 31 Jul 2024 21:02:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-25 14:30:57.231686
- Title: Can ChatGPT assist visually impaired people with micro-navigation?
- Title(参考訳): ChatGPTは視覚障害者の微小ナビゲーションを補助できるか?
- Authors: Junxian He, Shrinivas Pundlik, Gang Luo,
- Abstract要約: 113のシーン画像と人為的なテキスト記述からなるマイクロナビゲーションシナリオのテストセットを作成しました。
すべてのクエリは、シーンイメージで利用可能な情報に基づいて答えられるわけではない。
高次方向応答が期待され、ステップバイステップガイダンスは不要であった。
- 参考スコア(独自算出の注目度): 15.14151523700161
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Objective: Micro-navigation poses challenges for blind and visually impaired individuals. They often need to ask for sighted assistance. We explored the feasibility of utilizing ChatGPT as a virtual assistant to provide navigation directions. Methods: We created a test set of outdoor and indoor micro-navigation scenarios consisting of 113 scene images and their human-generated text descriptions. A total of 412 way-finding queries and their expected responses were compiled based on the scenarios. Not all queries are answerable based on the information available in the scene image. "I do not know"response was expected for unanswerable queries, which served as negative cases. High level orientation responses were expected, and step-by-step guidance was not required. ChatGPT 4o was evaluated based on sensitivity (SEN) and specificity (SPE) under different conditions. Results: The default ChatGPT 4o, with scene images as inputs, resulted in SEN and SPE values of 64.8% and 75.9%, respectively. Instruction on how to respond to unanswerable questions did not improve SEN substantially but SPE increased by around 14 percentage points. SEN and SPE both improved substantially, by about 17 and 16 percentage points on average respectively, when human written descriptions of the scenes were provided as input instead of images. Providing further prompt instructions to the assistants when the input was text description did not substantially change the SEN and SPE values. Conclusion: Current native ChatGPT 4o is still unable to provide correct micro-navigation guidance in some cases, probably because its scene understanding is not optimized for navigation purposes. If multi-modal chatbots could interpret scenes with a level of clarity comparable to humans, and also guided by appropriate prompts, they may have the potential to provide assistance to visually impaired for micro-navigation.
- Abstract(参考訳): 目的: マイクロナビゲーションは視覚障害者や視覚障害者にとって課題となる。
彼らはよく視力のある援助を求める必要がある。
ナビゲーションナビゲーションのための仮想アシスタントとしてChatGPTを活用する可能性について検討した。
方法:113のシーン画像と人為的なテキスト記述からなる屋外および屋内のマイクロナビゲーションシナリオのテストセットを作成した。
合計412のウェイフィリングクエリと予測応答がシナリオに基づいてコンパイルされた。
すべてのクエリは、シーンイメージで利用可能な情報に基づいて答えられるわけではない。
答えがつかないクエリに対して"私は知らない"応答が期待され、負のケースとして機能した。
高次方向応答が期待され、ステップバイステップガイダンスは不要であった。
ChatGPT 4o は感受性 (SEN) と特異性 (SPE) に基づいて異なる条件下で評価した。
結果: シーンイメージを入力とするデフォルトのChatGPT 4oは、それぞれ64.8%と75.9%のSENとSPEの値となった。
回答不能な質問に対する回答の指導はSENを大幅に改善することはなかったが、SPEは約14ポイント増加した。
SENとSPEは、画像の代わりに人間の記述されたシーンが入力として提供されると、それぞれ平均17と16のポイントで大幅に改善された。
入力がテキスト記述であるときにアシスタントにさらなる指示を与えると、SENとSPEの値は実質的に変化しない。
結論: 現在のネイティブChatGPT 4oは、おそらくそのシーン理解がナビゲーション目的に最適化されていないため、正しいマイクロナビゲーションガイダンスを提供することができない。
マルチモーダルチャットボットが、人間に匹敵する明快さのシーンを解釈し、適切なプロンプトで導くことができれば、視覚障害者にマイクロナビゲーションの補助を提供する可能性がある。
関連論文リスト
- Investigating Use Cases of AI-Powered Scene Description Applications for Blind and Low Vision People [2.980933566660353]
視覚障害者(BLV)にとって「シーン記述」の応用は有用な日常ツールである。
我々は,16人のBLV参加者がAIを用いたシーン記述アプリケーションを使用した2週間の日記調査を行った。
既知のオブジェクトの視覚的特徴を識別するなどのユースケースや、危険なオブジェクトとの接触を避けるような驚くべきユースケースが頻繁に見出されました。
論文 参考訳(メタデータ) (2024-03-22T20:16:55Z) - Asking Multimodal Clarifying Questions in Mixed-Initiative
Conversational Search [89.1772985740272]
混合開始型会話検索システムでは、質問を明確にすることで、意図を単一のクエリで表現するのに苦労するユーザを支援する。
マルチモーダル情報が関係するシナリオでは、非テクスチャ情報を用いることで、明確化のプロセスを改善することができると仮定する。
質問を明確にする4k以上のマルチモーダルを含むMelonというデータセットを収集し、14k以上の画像で濃縮する。
クエリの明確化フェーズにおけるマルチモーダルコンテンツの重要性を理解するために,いくつかの解析を行った。
論文 参考訳(メタデータ) (2024-02-12T16:04:01Z) - ConTextual: Evaluating Context-Sensitive Text-Rich Visual Reasoning in Large Multimodal Models [92.60282074937305]
テキストリッチな画像に対して文脈に敏感な推論を必要とする人為的な命令を特徴とする新しいデータセットであるConTextualを紹介した。
そこで本研究では,14の基盤モデルの性能評価実験を行い,人為的な性能基準を確立する。
GPT-4Vとヒトのパフォーマンスの30.8%の有意な性能差を観察した。
論文 参考訳(メタデータ) (2024-01-24T09:07:11Z) - When "A Helpful Assistant" Is Not Really Helpful: Personas in System Prompts Do Not Improve Performances of Large Language Models [34.831938712535084]
商用AIシステムは一般に、システムプロンプトにおけるLarge Language Models(LLM)の役割を定義している。
客観的タスクにおいて、異なるペルソナがモデルのパフォーマンスにどの程度影響するかは、まだ不明である。
6種類の対人関係と8つの専門領域を含む162のロールのリストをキュレートする。
論文 参考訳(メタデータ) (2023-11-16T17:48:55Z) - Holistic Analysis of Hallucination in GPT-4V(ision): Bias and
Interference Challenges [54.42256219010956]
このベンチマークは、視覚言語モデルにおける2つの一般的な幻覚、すなわちバイアスと干渉を評価するために設計されている。
偏見はモデルがある種の反応を幻覚させる傾向を示すもので、おそらくはトレーニングデータの不均衡によるものである。
干渉とは、テキストプロンプトのフレーズ化や入力画像の表示方法によって、GPT-4V(ision)の判定が破壊されるシナリオである。
論文 参考訳(メタデータ) (2023-11-06T17:26:59Z) - GPT-4V(ision) as a Generalist Evaluator for Vision-Language Tasks [70.98062518872999]
我々は,GPT-4Vの性能評価,基本画像からテキストへの合成,高レベル画像から画像への変換,複数画像からテキストへのアライメントといったタスクに対処する能力を検証する。
特に、GPT-4Vは、様々なタスクや評価方法にまたがって人間と有望な合意を示し、マルチモーダルLCMを評価対象として持つ可能性を示している。
論文 参考訳(メタデータ) (2023-11-02T16:11:09Z) - How Prevalent is Gender Bias in ChatGPT? -- Exploring German and English ChatGPT Responses [0.20971479389679337]
私たちは、ChatGPTが、IT以外のユーザが日々の作業のためにテキストをドラフトするのに役立つことを示しています。
システムの応答をバイアスだけでなく、構文的および文法的ミスに対して徹底的にチェックすることが極めて重要です。
論文 参考訳(メタデータ) (2023-09-21T07:54:25Z) - Towards Making the Most of ChatGPT for Machine Translation [75.576405098545]
ChatGPTは機械翻訳(MT)の優れた機能を示す
いくつかの先行研究により、ハイソース言語の商用システムと同等の結果が得られることが示されている。
論文 参考訳(メタデータ) (2023-03-24T03:35:21Z) - AVLEN: Audio-Visual-Language Embodied Navigation in 3D Environments [60.98664330268192]
AVLEN(Audio-Visual-Language Embodied Navigationの対話型エージェント)を提案する。
AVLENの目標は、3Dビジュアルワールドをナビゲートすることでオーディオイベントをローカライズすることである。
これらの能力を実現するために、AVLENはマルチモーダル階層的な強化学習バックボーンを使用する。
論文 参考訳(メタデータ) (2022-10-14T16:35:06Z) - Essential Sentences for Navigating Stack Overflow Answers [16.78572353748174]
Stack Overflowはソフトウェア開発に不可欠なリソースになっています。
ナビゲーションの手がかりは 重要な文の形で 検索者が 答えを読みたいか スキップしたいか 判断するのに役立つ
本文を同定するための4つの潜在的アプローチを比較した。
論文 参考訳(メタデータ) (2019-12-31T17:52:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。