論文の概要: Towards an AI-Driven Video-Based American Sign Language Dictionary: Exploring Design and Usage Experience with Learners
- arxiv url: http://arxiv.org/abs/2504.05857v1
- Date: Tue, 08 Apr 2025 09:35:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:29:00.020702
- Title: Towards an AI-Driven Video-Based American Sign Language Dictionary: Exploring Design and Usage Experience with Learners
- Title(参考訳): AI駆動型ビデオベースアメリカ手話辞書を目指して : 学習者による設計と使用経験を探る
- Authors: Saad Hassan, Matyas Bohacek, Chaelin Kim, Denise Crochet,
- Abstract要約: ビデオベースの辞書では、ユーザーはビデオを投稿し、最も近いマッチングサインのリストを受け取ることができる。
本稿では,この辞書をビデオ理解作業や質問応答作業で用いた12人の初級ASL学習者を対象にした観察研究から得られた知見を報告する。
これまでのWoZ研究では、記録や再送信の兆候、予測不能な出力、システムのレイテンシ、プライバシの懸念など、人間とAIのインタラクションの課題に対処しています。
- 参考スコア(独自算出の注目度): 3.4030882631756025
- License:
- Abstract: Searching for unfamiliar American Sign Language (ASL) signs is challenging for learners because, unlike spoken languages, they cannot type a text-based query to look up an unfamiliar sign. Advances in isolated sign recognition have enabled the creation of video-based dictionaries, allowing users to submit a video and receive a list of the closest matching signs. Previous HCI research using Wizard-of-Oz prototypes has explored interface designs for ASL dictionaries. Building on these studies, we incorporate their design recommendations and leverage state-of-the-art sign-recognition technology to develop an automated video-based dictionary. We also present findings from an observational study with twelve novice ASL learners who used this dictionary during video-comprehension and question-answering tasks. Our results address human-AI interaction challenges not covered in previous WoZ research, including recording and resubmitting signs, unpredictable outputs, system latency, and privacy concerns. These insights offer guidance for designing and deploying video-based ASL dictionary systems.
- Abstract(参考訳): 未知のアメリカ手話 (ASL) 記号の検索は、音声言語とは異なり、未知の記号を探すためにテキストベースのクエリーを入力できないため、学習者にとって困難である。
孤立したサイン認識の進歩により、ビデオベースの辞書の作成が可能となり、ユーザーはビデオを投稿し、最も近いマッチするサインのリストを受信できるようになった。
Wizard-of-Ozのプロトタイプを用いた以前のHCI研究では、ASL辞書のインタフェース設計が検討されている。
これらの研究に基づいて、我々はそれらの設計勧告を取り入れ、最先端のサイン認識技術を活用して自動ビデオベース辞書を開発する。
また,この辞書をビデオ理解作業や質問応答作業に用いた12人の初級ASL学習者を対象に,観察的研究を行った。
これまでのWoZ研究では、記録や再送信の兆候、予測不能な出力、システムのレイテンシ、プライバシの懸念など、人間とAIのインタラクションの課題に対処しています。
これらの洞察は、ビデオベースのASL辞書システムを設計および展開するためのガイダンスを提供する。
関連論文リスト
- Generating Signed Language Instructions in Large-Scale Dialogue Systems [25.585339304165466]
我々は、アメリカン手話(ASL)命令で強化された目標指向対話型AIシステムを導入する。
本システムは,ユーザからの入力を受信し,検索手法と認知に基づく光沢変換を活用して,ASL命令をシームレスに生成する。
論文 参考訳(メタデータ) (2024-10-17T20:56:29Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - New Capability to Look Up an ASL Sign from a Video Example [4.992008196032313]
ASL符号のビデオの検索を可能にするために,Web上で公開された新しいシステムについて述べる。
ユーザは分析のためにビデオを提出し、最も可能性の高い5つのサインマッチが提示される。
このビデオ検索は、ASLビデオデータの言語アノテーションを容易にするために、最新のSignStreamソフトウェアに統合されています。
論文 参考訳(メタデータ) (2024-07-18T15:14:35Z) - DiffSLVA: Harnessing Diffusion Models for Sign Language Video
Anonymization [33.18321022815901]
テキスト誘導手話ビデオ匿名化のための新しい手法であるDiffSLVAを紹介する。
我々は,署名された言語で言語情報を伝達するために重要な,表情をキャプチャーする専用のモジュールを開発する。
この革新的な方法論は、初めて、現実世界のアプリケーションに使用できる言語ビデオの匿名化を可能にする。
論文 参考訳(メタデータ) (2023-11-27T18:26:19Z) - ASL Citizen: A Community-Sourced Dataset for Advancing Isolated Sign
Language Recognition [6.296362537531586]
サイン言語は、全世界で約7000万人のD/deaf人が一次言語として使っている。
この問題に対処するため、最初のクラウドソースで分離された手話認識データセットであるASL Citizenをリリースしました。
我々は,このデータセットを,ユーザがWebカメラにサインを表示させて辞書から一致するサインを検索する,American Sign Language (ASL) のための手話辞書検索に使用することを提案する。
論文 参考訳(メタデータ) (2023-04-12T15:52:53Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Sign Language Video Retrieval with Free-Form Textual Queries [19.29003565494735]
本稿では,自由形式のテキストクエリを用いた手話検索の課題について紹介する。
目的は、書かれたクエリに最もよくマッチする、コレクション内の署名ビデオを見つけることである。
本研究では,SPOT-ALIGNを提案する。SPOT-ALIGNは,利用可能なトレーニングデータの範囲と規模を拡大するために,符号スポッティングと特徴アライメントの反復ラウンドをインターリーブするフレームワークである。
論文 参考訳(メタデータ) (2022-01-07T15:22:18Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Watch, read and lookup: learning to spot signs from multiple supervisors [99.50956498009094]
孤立した手話のビデオが与えられた場合、我々のタスクは、連続的かつ協調的な手話ビデオで署名されたか、どこで署名されたかを特定することである。
我々は,(1)既存の粗末なラベル付き映像を見ること,(2)追加の弱スーパービジョンを提供する関連字幕を読むこと,(3)視覚手話辞書で単語を検索すること,の3つを用いて,利用可能な複数のタイプの監督手法を用いてモデルを訓練する。
これらの3つのタスクは、ノイズコントラスト推定と多重インスタンス学習の原則を用いて統合学習フレームワークに統合される。
論文 参考訳(メタデータ) (2020-10-08T14:12:56Z) - BSL-1K: Scaling up co-articulated sign language recognition using
mouthing cues [106.21067543021887]
ビデオデータから高品質なアノテーションを得るために,シグナリングキューの使い方を示す。
BSL-1Kデータセット(英: BSL-1K dataset)は、イギリス手話(英: British Sign Language, BSL)の集合体である。
論文 参考訳(メタデータ) (2020-07-23T16:59:01Z) - Transferring Cross-domain Knowledge for Video Sign Language Recognition [103.9216648495958]
単語レベルの手話認識(WSLR)は手話解釈の基本課題である。
ドメイン不変の視覚概念を学習し、サブタイトルのニュースサインの知識を伝達することでWSLRモデルを肥大化させる新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-08T03:05:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。