論文の概要: GLaM-Sign: Greek Language Multimodal Lip Reading with Integrated Sign Language Accessibility
- arxiv url: http://arxiv.org/abs/2501.05213v1
- Date: Thu, 09 Jan 2025 13:06:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-10 14:00:39.730239
- Title: GLaM-Sign: Greek Language Multimodal Lip Reading with Integrated Sign Language Accessibility
- Title(参考訳): GLaM-Sign: 統合手話アクセシビリティを備えたギリシャ語のマルチモーダルリップ読み込み
- Authors: Dimitris Kouremenos, Klimis Ntalianis,
- Abstract要約: このデータセットは、ブリッジング通信ギャップにおけるマルチモーダルリソースの変換可能性を強調する。
これはアクセシビリティとマルチモーダルAIにおいて画期的なリソースであり、Deaf and Hard-of-Hearing(DHH)個人をサポートするように設計されている。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The Greek Language Multimodal Lip Reading with Integrated Sign Language Accessibility (GLaM-Sign) [1] is a groundbreaking resource in accessibility and multimodal AI, designed to support Deaf and Hard-of-Hearing (DHH) individuals. Developed from the FEELIT project [2], it integrates high-resolution audio, video, textual transcriptions, and Greek Sign Language translations for applications like real-time sign language translation and enhanced subtitle synchronization. While its primary focus is on promoting inclusivity in the Greek tourism sector, its adaptability extends to education, healthcare, and public services. Future advancements will enhance word-level precision and scalability to additional languages, supported by advanced AI methodologies and collaborations with diverse stakeholders. This dataset underscores the transformative potential of multimodal resources in bridging communication gaps, fostering innovation, and setting a benchmark for ethical AI and inclusive technologies.
- Abstract(参考訳): ギリシャ語 GLaM-Sign (Integrated Sign Language Accessibility) [1] は、Deaf and Hard-of-Hearing (DHH) 個人をサポートするために設計された、アクセシビリティとマルチモーダルAIの基盤となるリソースである。
FEELITプロジェクト[2]から開発され、リアルタイム手話翻訳や字幕同期の強化など、高解像度の音声、ビデオ、テキストの書き起こし、ギリシャ手話翻訳を統合している。
主な焦点はギリシャの観光業におけるインクリシティの促進であるが、教育、医療、公共サービスにも適応性を広げている。
今後は、高度なAI方法論と多様な利害関係者とのコラボレーションによってサポートされ、単語レベルの精度とスケーラビリティが追加言語に向上する。
このデータセットは、コミュニケーションギャップを埋め、イノベーションを育み、倫理的AIと包括的技術のためのベンチマークを設定することで、マルチモーダルリソースの変革の可能性を強調します。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - VITA: Towards Open-Source Interactive Omni Multimodal LLM [104.52782565106033]
MLLM(Multimodal Large Language Model)の最初のオープンソースであるVITAを紹介する。
2段階のマルチタスク学習により,言語モデルに視覚的・音声的能力を持たせる。
VITAは、多言語、視覚、および音声理解の堅牢な基礎機能を示す。
論文 参考訳(メタデータ) (2024-08-09T17:59:49Z) - Improving Multilingual Neural Machine Translation by Utilizing Semantic and Linguistic Features [18.76505158652759]
複数の言語間の意味的特徴と言語的特徴を利用して多言語翻訳を強化することを提案する。
エンコーダ側では,意味的特徴と言語的特徴を両立させることにより,エンコーダ表現を整合させる非係合学習タスクを導入する。
デコーダ側では、言語エンコーダを利用して低レベル言語機能を統合し、ターゲット言語生成を支援する。
論文 参考訳(メタデータ) (2024-08-02T17:10:12Z) - SUTRA: Scalable Multilingual Language Model Architecture [5.771289785515227]
我々は50以上の言語でテキストの理解、推論、生成が可能な多言語大言語モデルアーキテクチャSUTRAを紹介する。
広範な評価により、SUTRA は GPT-3.5 や Llama2 といった既存のモデルを 20-30% 上回って、主要なMultitask Language Understanding (MMLU) ベンチマークを上回ります。
以上の結果から,SUTRAは多言語モデル機能において重要なギャップを埋めるだけでなく,AIアプリケーションにおける運用効率とスケーラビリティの新たなベンチマークを確立することが示唆された。
論文 参考訳(メタデータ) (2024-05-07T20:11:44Z) - From Bytes to Borsch: Fine-Tuning Gemma and Mistral for the Ukrainian Language Representation [0.0]
生成型大規模言語モデル(LLM)は、テキスト理解と生成において非並列的な能力を示すイノベーションの最前線にある。
しかし、ウクライナ語のような低リソース言語の限られた表現は、この技術のリーチと関連性を制限し、顕著な課題となっている。
本稿は, オープンソースのGemmaとMistral LLMをウクライナのデータセットで微調整し, 言語能力の向上を目指す。
論文 参考訳(メタデータ) (2024-04-14T04:25:41Z) - Language Detection for Transliterated Content [0.0]
我々は、英語のアルファベットを母国語でメッセージを伝えるために使用する翻訳の広汎な利用について研究する。
本稿では,ヒンディー語とロシア語を英語に翻訳した音声テキストのデータセットを用いて,この問題に対処する。
この研究は、翻訳されたテキストを識別し、変換するための革新的なアプローチの先駆者である。
論文 参考訳(メタデータ) (2024-01-09T15:40:54Z) - Towards a Deep Understanding of Multilingual End-to-End Speech
Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。
我々は分析から3つの大きな発見を得た。
論文 参考訳(メタデータ) (2023-10-31T13:50:55Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Overcoming Language Disparity in Online Content Classification with
Multimodal Learning [22.73281502531998]
大規模言語モデルは、テキスト検出と分類タスクのための最先端のソリューションを開発するための標準となっている。
高度な計算技術と資源の開発は、英語に不相応に焦点が当てられている。
マルチモーダル機械学習を用いて画像に含まれる情報を統合するという約束を探求する。
論文 参考訳(メタデータ) (2022-05-19T17:56:02Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。