論文の概要: ProgramAlly: Creating Custom Visual Access Programs via Multi-Modal End-User Programming
- arxiv url: http://arxiv.org/abs/2408.10499v1
- Date: Tue, 20 Aug 2024 02:45:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:24:37.137187
- Title: ProgramAlly: Creating Custom Visual Access Programs via Multi-Modal End-User Programming
- Title(参考訳): ProgramAlly:マルチモーダルエンドユーザープログラミングによるカスタムビジュアルアクセスプログラムの作成
- Authors: Jaylin Herskovitz, Andi Xu, Rahaf Alharbi, Anhong Guo,
- Abstract要約: 本稿では,視覚情報のためのカスタムフィルタ作成システムであるProgramAllyを紹介する。
盲目の成人12名を対象にしたユーザスタディでは,課題によって異なるプログラミングのモダリティが好まれていた。
- 参考スコア(独自算出の注目度): 12.87184476078357
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Existing visual assistive technologies are built for simple and common use cases, and have few avenues for blind people to customize their functionalities. Drawing from prior work on DIY assistive technology, this paper investigates end-user programming as a means for users to create and customize visual access programs to meet their unique needs. We introduce ProgramAlly, a system for creating custom filters for visual information, e.g., 'find NUMBER on BUS', leveraging three end-user programming approaches: block programming, natural language, and programming by example. To implement ProgramAlly, we designed a representation of visual filtering tasks based on scenarios encountered by blind people, and integrated a set of on-device and cloud models for generating and running these programs. In user studies with 12 blind adults, we found that participants preferred different programming modalities depending on the task, and envisioned using visual access programs to address unique accessibility challenges that are otherwise difficult with existing applications. Through ProgramAlly, we present an exploration of how blind end-users can create visual access programs to customize and control their experiences.
- Abstract(参考訳): 既存の視覚補助技術は、シンプルで一般的なユースケースのために構築されており、視覚障害者が機能をカスタマイズするための道は少ない。
本稿では,DIY支援技術に関する先行研究から,ユーザが独自のニーズを満たすビジュアルアクセスプログラムを作成し,カスタマイズするための手段として,エンドユーザープログラミングについて考察する。
本稿では,視覚情報のためのカスタムフィルタであるProgramAllyを紹介し,ブロックプログラミング,自然言語,プログラミングの3つのエンドユーザープログラミングアプローチを活用する。
ProgramAllyを実装するために、視覚的なフィルタリングタスクを視覚障害者が遭遇するシナリオに基づいて表現し、これらのプログラムの生成と実行のためにデバイス上のモデルとクラウドモデルを統合した。
視覚障害者12名のユーザスタディにおいて、参加者はタスクによって異なるプログラミングモダリティを好み、視覚的アクセスプログラムを用いて既存のアプリケーションでは困難なアクセシビリティ問題に対処することを想定した。
ProgramAllyを通じて、視覚障害者が体験をカスタマイズし制御するための視覚的アクセスプログラムをいかに作成できるかを探索する。
関連論文リスト
- A Software Visualization Approach for Multiple Visual Output Devices [0.24466725954625887]
本稿では,複数のディスプレイやプロジェクタを用いて,既存のアプローチのギャップを埋めるソフトウェア都市によるソフトウェアビジュアライゼーションの新たなアプローチを提案する。
当社のWebベースのライブトレース可視化ツールであるExploreVizは、複数のブラウザインスタンス間で視覚化を同期するサービスで拡張されています。
予備的な研究は、この環境がソフトウェア都市を共同で探究するのに有用であることを示唆している。
論文 参考訳(メタデータ) (2024-09-04T11:27:47Z) - Self-Training Large Language Models for Improved Visual Program Synthesis With Visual Reinforcement [93.73648674743097]
ビジュアルプログラム合成は、構成型コンピュータビジョンタスクのための大規模言語モデルの推論能力を利用するための有望なアプローチである。
それまでの作業では、視覚プログラムを合成するために、凍結LDMを使用した数発のプロンプトを使用していた。
トレーニング用ビジュアルプログラムのデータセットは存在せず、ビジュアルプログラムデータセットの取得は簡単にクラウドソーシングできない。
論文 参考訳(メタデータ) (2024-04-06T13:25:00Z) - De-fine: Decomposing and Refining Visual Programs with Auto-Feedback [75.62712247421146]
De-fineは、複雑なタスクを単純なサブタスクに分解し、オートフィードバックを通じてプログラムを洗練する、トレーニング不要のフレームワークである。
様々な視覚的タスクに対する我々の実験は、De-fineがより堅牢なプログラムを生成することを示している。
論文 参考訳(メタデータ) (2023-11-21T06:24:09Z) - Njobvu-AI: An open-source tool for collaborative image labeling and
implementation of computer vision models [0.5617572524191751]
Njobvu-AIは、Node.jsを使ってデスクトップとサーバの両方のハードウェアで実行できる無料のオープンソースツールである。
ユーザは、データのラベル付け、コラボレーションとレビューのためのプロジェクトの統合、カスタムアルゴリズムのトレーニング、新しいコンピュータビジョンモデルの実装が可能になる。
論文 参考訳(メタデータ) (2023-08-31T03:49:41Z) - Collaborative, Code-Proximal Dynamic Software Visualization within Code
Editors [55.57032418885258]
本稿では,コードエディタに組み込むソフトウェアビジュアライゼーション手法の設計と実装について紹介する。
私たちのコントリビューションは、ソフトウェアシステムの実行時の動作の動的解析を使用するという点で、関連する作業と異なります。
私たちの視覚化アプローチは、一般的なリモートペアプログラミングツールを強化し、共有コード都市を利用することで協調的に使用できます。
論文 参考訳(メタデータ) (2023-08-30T06:35:40Z) - AssistGPT: A General Multi-modal Assistant that can Plan, Execute,
Inspect, and Learn [25.510696745075688]
我々は、Plan、Execute、Inspect、Learningと呼ばれるインターリーブコードと言語推論アプローチを備えたマルチモーダルAIアシスタントAssistGPTを提案する。
Plannerは自然言語を使ってExecutorで次にすべきツールを計画することができる。
我々は, A-OKVQA と NExT-QA のベンチマーク実験を行い, 最先端の結果を得た。
論文 参考訳(メタデータ) (2023-06-14T17:12:56Z) - Visual Programming: Compositional visual reasoning without training [24.729624386851388]
VISPROGは、複雑で構成的な視覚課題を解決するための神経象徴的なアプローチである。
大規模な言語モデルのコンテキスト内学習機能を使って、ピソンのようなモジュラープログラムを生成する。
論文 参考訳(メタデータ) (2022-11-18T18:50:09Z) - Learning from Self-Sampled Correct and Partially-Correct Programs [96.66452896657991]
そこで本研究では,モデルが学習中にサンプリングを行い,自己サンプリングされた完全正当プログラムと部分正当プログラムの両方から学習することを提案する。
自己サンプリング型プログラムと部分修正型プログラムを併用することで,学習とサンプリングプロセスのガイドに役立てることができることを示す。
提案手法は,MLEを用いた単一の参照プログラムからの学習と比較して,パス@kの性能を3.1%から12.3%向上させる。
論文 参考訳(メタデータ) (2022-05-28T03:31:07Z) - ASHA: Assistive Teleoperation via Human-in-the-Loop Reinforcement
Learning [91.58711082348293]
オンラインユーザからのフィードバックからシステムのパフォーマンスに関する強化学習は、この問題に対する自然な解決策である。
このアプローチでは、特にフィードバックが不足している場合には、ループ内の大量のトレーニングデータが必要になる傾向があります。
疎いユーザフィードバックから効率的に学習する階層型ソリューションを提案する。
論文 参考訳(メタデータ) (2022-02-05T02:01:19Z) - Can machines learn to see without visual databases? [93.73109506642112]
本稿では,視覚的データベースを扱わずに視界を学習するマシンの開発に焦点をあてる。
これは、ビジョンのためのディープラーニング技術に関する真に競争の激しい道を開くかもしれない。
論文 参考訳(メタデータ) (2021-10-12T13:03:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。