論文の概要: ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing
- arxiv url: http://arxiv.org/abs/2409.09760v2
- Date: Sat, 08 Feb 2025 02:00:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 17:38:01.614731
- Title: ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing
- Title(参考訳): ELMI: 歌声署名のための歌詞の対話的かつインテリジェントな手話翻訳
- Authors: Suhyeon Yoo, Khai N. Truong, Young-Ho Kim,
- Abstract要約: ELMIは、リアルタイムでシンクされた歌詞とミュージックビデオのスニペットで、ユーザーがグルースを1行ずつ編集することを可能にする。
ユーザーは大きな言語モデル駆動AIとチャットして、意味、光沢、動機付け、タイミングについて議論することもできる。
- 参考スコア(独自算出の注目度): 9.959909945198346
- License:
- Abstract: d/Deaf and hearing song-signers have become prevalent across video-sharing platforms, but translating songs into sign language remains cumbersome and inaccessible. Our formative study revealed the challenges song-signers face, including semantic, syntactic, expressive, and rhythmic considerations in translations. We present ELMI, an accessible song-signing tool that assists in translating lyrics into sign language. ELMI enables users to edit glosses line-by-line, with real-time synced lyric and music video snippets. Users can also chat with a large language model-driven AI to discuss meaning, glossing, emoting, and timing. Through an exploratory study with 13 song-signers, we examined how ELMI facilitates their workflows and how song-signers leverage and receive an LLM-driven chat for translation. Participants successfully adopted ELMI to song-signing, with active discussions throughout. They also reported improved confidence and independence in their translations, finding ELMI encouraging, constructive, and informative. We discuss research and design implications for accessible and culturally sensitive song-signing translation tools.
- Abstract(参考訳): D/Deafやリスニング・ソングシグナーはビデオ共有プラットフォームで普及しているが、手話に曲を翻訳するのは面倒でアクセスしづらい。
我々の形式的研究は、意味論、構文論、表現論、翻訳におけるリズム的考察を含む、歌声シグナーが直面する課題を明らかにした。
ELMIは,歌詞を手話に翻訳するのを支援する,アクセス可能な楽曲署名ツールである。
ELMIは、リアルタイムでシンクされた歌詞とミュージックビデオのスニペットで、ユーザーがグルースを1行ずつ編集することを可能にする。
ユーザーは大きな言語モデル駆動AIとチャットして、意味、光沢、動機付け、タイミングについて議論することもできる。
13人のソングシグナーによる探索的研究を通じて,ELMIのワークフローの促進と,LLMによる翻訳チャットの活用と受信方法を検討した。
参加者はELMIの楽曲署名に成功し、活発な議論を行った。
彼らはまた、彼らの翻訳における信頼と独立性の改善を報告し、ELMIは励まし、建設的、情報的であった。
アクセシブルで文化に敏感な楽曲署名翻訳ツールの研究と設計について論じる。
関連論文リスト
- Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。
マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。
提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T09:01:41Z) - Enhanced Sign Language Translation between American Sign Language (ASL) and Indian Sign Language (ISL) Using LLMs [0.2678472239880052]
我々は、アメリカ手話の利用者と話し言葉とインド手話(ISL)の利用者の間に橋渡しを提供することを目標とする研究を思いついた。
このフレームワークは、ジェスチャーの可変性の自動処理や、ASLとISLの言語的違いを克服するといった重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-19T17:45:12Z) - Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。
難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。
これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文 参考訳(メタデータ) (2024-08-16T06:04:25Z) - EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。
イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。
計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文 参考訳(メタデータ) (2024-07-17T14:16:35Z) - SongComposer: A Large Language Model for Lyric and Melody Composition in
Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。
我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。
広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-02-27T16:15:28Z) - CoVLM: Composing Visual Entities and Relationships in Large Language
Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。
テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文 参考訳(メタデータ) (2023-11-06T18:59:44Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z) - Translate the Beauty in Songs: Jointly Learning to Align Melody and
Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。
これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。
英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文 参考訳(メタデータ) (2023-03-28T03:17:59Z) - SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。
我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。
SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文 参考訳(メタデータ) (2021-12-08T11:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。