論文の概要: Generating Signed Language Instructions in Large-Scale Dialogue Systems
- arxiv url: http://arxiv.org/abs/2410.14026v1
- Date: Thu, 17 Oct 2024 20:56:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:27.827463
- Title: Generating Signed Language Instructions in Large-Scale Dialogue Systems
- Title(参考訳): 大規模対話システムにおける手話命令の生成
- Authors: Mert İnan, Katherine Atwell, Anthony Sicilia, Lorna Quandt, Malihe Alikhani,
- Abstract要約: 我々は、アメリカン手話(ASL)命令で強化された目標指向対話型AIシステムを導入する。
本システムは,ユーザからの入力を受信し,検索手法と認知に基づく光沢変換を活用して,ASL命令をシームレスに生成する。
- 参考スコア(独自算出の注目度): 25.585339304165466
- License:
- Abstract: We introduce a goal-oriented conversational AI system enhanced with American Sign Language (ASL) instructions, presenting the first implementation of such a system on a worldwide multimodal conversational AI platform. Accessible through a touch-based interface, our system receives input from users and seamlessly generates ASL instructions by leveraging retrieval methods and cognitively based gloss translations. Central to our design is a sign translation module powered by Large Language Models, alongside a token-based video retrieval system for delivering instructional content from recipes and wikiHow guides. Our development process is deeply rooted in a commitment to community engagement, incorporating insights from the Deaf and Hard-of-Hearing community, as well as experts in cognitive and ASL learning sciences. The effectiveness of our signing instructions is validated by user feedback, achieving ratings on par with those of the system in its non-signing variant. Additionally, our system demonstrates exceptional performance in retrieval accuracy and text-generation quality, measured by metrics such as BERTScore. We have made our codebase and datasets publicly accessible at https://github.com/Merterm/signed-dialogue, and a demo of our signed instruction video retrieval system is available at https://huggingface.co/spaces/merterm/signed-instructions.
- Abstract(参考訳): 我々は、ASL(American Sign Language)命令で強化された目標指向対話型AIシステムを導入し、世界規模のマルチモーダル対話型AIプラットフォーム上でそのようなシステムの実装を初めて行った。
そこで本システムは,ユーザからの入力を受信し,検索手法と認識に基づく光沢変換を活用して,ASL命令をシームレスに生成する。
我々のデザインの中心は、大規模言語モデルによる手話翻訳モジュールであり、レシピやwikiHowガイドから指導コンテンツを配信するトークンベースのビデオ検索システムである。
私たちの開発プロセスは、認知科学やASL学習科学の専門家だけでなく、聴覚障害や聴覚障害のコミュニティからの洞察を取り入れた、コミュニティの関与へのコミットメントに深く根ざしています。
署名命令の有効性は,ユーザのフィードバックによって検証され,非署名型のシステムと同等のレーティングが得られた。
さらに,BERTScoreなどのメトリクスを用いて,検索精度とテキスト生成品質の異常な性能を示す。
コードベースとデータセットはhttps://github.com/Merterm/signed-dialogueで公開されており、署名された命令ビデオ検索システムのデモはhttps://huggingface.co/spaces/merterm/signed-instructionsで公開されています。
関連論文リスト
- Deep Neural Network-Based Sign Language Recognition: A Comprehensive Approach Using Transfer Learning with Explainability [0.0]
我々は、ディープニューラルネットワークを使って手話認識を完全に自動化する新しいソリューションを提案する。
この手法は、高度な前処理方法論を統合し、全体的なパフォーマンスを最適化する。
SHAP (SHapley Additive exPlanations) 法を用いて, 情報的明瞭度の提供能力を評価した。
論文 参考訳(メタデータ) (2024-09-11T17:17:44Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - Pronunciation Assessment with Multi-modal Large Language Models [10.35401596425946]
大規模言語モデル(LLM)に基づくスコアリングシステムを提案する。
音声エンコーダは、まず学習者の音声を文脈的特徴にマッピングする。
アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
論文 参考訳(メタデータ) (2024-07-12T12:16:14Z) - SignBLEU: Automatic Evaluation of Multi-channel Sign Language Translation [3.9711029428461653]
マルチチャネル手話翻訳(MCSLT)という新しいタスクを導入する。
本稿では,複数の信号チャネルを捕捉する新しい測度であるSignBLEUを提案する。
SignBLEUは、競合する指標よりも、人間の判断と常に相関していることがわかった。
論文 参考訳(メタデータ) (2024-06-10T05:01:26Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - DIALIGHT: Lightweight Multilingual Development and Evaluation of
Task-Oriented Dialogue Systems with Large Language Models [76.79929883963275]
DIALIGHTは多言語タスク指向対話(ToD)システムの開発と評価のためのツールキットである。
ローカル発話レベルとグローバル対話レベルの両方において、人間のきめ細かい評価のためのセキュアでユーザフレンドリーなWebインターフェースを備えている。
評価の結果, PLMの微調整により精度とコヒーレンスが向上する一方, LLMベースのシステムは多様で類似した応答を生成するのに優れていた。
論文 参考訳(メタデータ) (2024-01-04T11:27:48Z) - Weakly-supervised Fingerspelling Recognition in British Sign Language
Videos [85.61513254261523]
従来の指スペル認識法は、British Sign Language (BSL) に焦点を絞っていない
従来の手法とは対照的に,本手法はトレーニング用字幕の弱いアノテーションのみを使用する。
本稿では,このタスクに適応したTransformerアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-16T15:02:36Z) - Explore More Guidance: A Task-aware Instruction Network for Sign
Language Translation Enhanced with Data Augmentation [20.125265661134964]
手話認識と翻訳は、まず認識モジュールを使用して手話ビデオからグルースを生成する。
本研究では,手話翻訳のためのタスク認識型命令ネットワークTIN-SLTを提案する。
論文 参考訳(メタデータ) (2022-04-12T17:09:44Z) - Skeleton Based Sign Language Recognition Using Whole-body Keypoints [71.97020373520922]
手話は聴覚障害者や言語障害者のコミュニケーションに使用される。
また,RGB-D法と組み合わせて最先端の性能を実現することで,Skeletonに基づく音声認識が普及しつつある。
近年のボディポーズ推定用citejin 2020wholeの開発に触発されて,全身キーポイントと特徴に基づく手話認識を提案する。
論文 参考訳(メタデータ) (2021-03-16T03:38:17Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。