Fugu-MT 論文翻訳(概要): ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing

論文の概要: ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing

arxiv url: http://arxiv.org/abs/2409.09760v1
Date: Sun, 15 Sep 2024 15:01:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 17:30:41.944654
Title: ELMI: Interactive and Intelligent Sign Language Translation of Lyrics for Song Signing
Title（参考訳）: ELMI: 歌声署名のための歌詞の対話的かつインテリジェントな手話翻訳
Authors: Suhyeon Yoo, Khai N. Truong, Young-Ho Kim,
Abstract要約: ELMIでは、リアルタイムでシンクされた歌詞のハイライトとミュージックビデオのスニペットを使って、グロースを1行ずつ編集できる。ユーザーは大きな言語モデル駆動AIとチャットして、意味、光沢、動機付け、タイミングについて議論することもできる。
参考スコア（独自算出の注目度）: 9.959909945198346
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: d/Deaf and hearing song-signers become prevalent on video-sharing platforms, but translating songs into sign language remains cumbersome and inaccessible. Our formative study revealed the challenges song-signers face, including semantic, syntactic, expressive, and rhythmic considerations in translations. We present ELMI, an accessible song-signing tool that assists in translating lyrics into sign language. ELMI enables users to edit glosses line-by-line, with real-time synced lyric highlighting and music video snippets. Users can also chat with a large language model-driven AI to discuss meaning, glossing, emoting, and timing. Through an exploratory study with 13 song-signers, we examined how ELMI facilitates their workflows and how song-signers leverage and receive an LLM-driven chat for translation. Participants successfully adopted ELMI to song-signing, with active discussions on the fly. They also reported improved confidence and independence in their translations, finding ELMI encouraging, constructive, and informative. We discuss design implications for leveraging LLMs in culturally sensitive song-signing translations.
Abstract（参考訳）: ビデオ共有プラットフォームでは、D/Deafやリスニング・ソングシグナーが一般的になるが、手話に曲を翻訳するのは面倒でアクセスしづらい。我々の形式的研究は、意味論、構文論、表現論、翻訳におけるリズム的考察を含む、歌声シグナーが直面する課題を明らかにした。 ELMIは,歌詞を手話に翻訳するのを支援する,アクセス可能な楽曲署名ツールである。 ELMIでは、リアルタイムでシンクされた歌詞のハイライトとミュージックビデオのスニペットを使って、グロースを1行ずつ編集できる。ユーザーは大きな言語モデル駆動AIとチャットして、意味、光沢、動機付け、タイミングについて議論することもできる。 13人のソングシグナーによる探索的研究を通じて,ELMIのワークフローの促進と,LLMによる翻訳チャットの活用と受信方法を検討した。参加者はELMIの楽曲署名に成功し、活発な議論が行われた。彼らはまた、彼らの翻訳における信頼と独立性の改善を報告し、ELMIは励まし、建設的、情報的であった。文化に敏感な楽曲署名翻訳におけるLLMの活用に関する設計上の意義について論じる。

関連論文リスト

Teach Me Sign: Stepwise Prompting LLM for Sign Language Production [4.855031479710184]
我々は,手話を別の自然言語として扱うTEAM-Sign(TEAM-Sign)を提案する。 LLMを微調整することで、テキストと手話の対応を学習することができる。そこで我々は,手話と手話の相違を考慮し,手話知識の抽出を段階的に進める戦略を採用した。
論文参考訳（メタデータ） (2025-07-15T04:31:52Z)
MAVL: A Multilingual Audio-Video Lyrics Dataset for Animated Song Translation [21.45108062752738]
歌声翻訳のためのマルチリンガル・マルチモーダル・ベンチマークであるMAVL(Multilingual Audio-Video Lyrics Benchmark for Animated Song Translation)を紹介する。本稿では,Syllable-Constrained Audio-Video LLM with Chain-of-Thought SylAVL-CoTを提案する。実験結果から,SylAVL-CoTはテキストベースモデルよりも歌声性や文脈精度が優れていた。
論文参考訳（メタデータ） (2025-05-24T09:28:09Z)
Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。署名ビデオと追加のコンテキストキューを組み込む。文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文参考訳（メタデータ） (2025-01-16T18:59:03Z)
Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文参考訳（メタデータ） (2024-11-26T18:28:09Z)
Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文参考訳（メタデータ） (2024-11-25T09:01:41Z)
SHuBERT: Self-Supervised Sign Language Representation Learning via Multi-Stream Cluster Prediction [65.1590372072555]
SHuBERT (Sign Hidden-Unit BERT) は、アメリカの手話ビデオ1,000時間から学習した自己教師付き文脈表現モデルである。 SHuBERTは、マスクされたトークン予測目標をマルチストリームの視覚手話入力に適用し、クラスタ化された手、顔、身体のポーズストリームに対応する複数のターゲットを予測することを学習する。 SHuBERTは手話翻訳、手話認識、指先検出など、複数のタスクで最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-11-25T03:13:08Z)
Enhanced Sign Language Translation between American Sign Language (ASL) and Indian Sign Language (ISL) Using LLMs [0.2678472239880052]
我々は、アメリカ手話の利用者と話し言葉とインド手話(ISL)の利用者の間に橋渡しを提供することを目標とする研究を思いついた。このフレームワークは、ジェスチャーの可変性の自動処理や、ASLとISLの言語的違いを克服するといった重要な課題に対処する。
論文参考訳（メタデータ） (2024-11-19T17:45:12Z)
Scaling up Multimodal Pre-training for Sign Language Understanding [96.17753464544604]
手話は、難聴者コミュニティにとってコミュニケーションの主要な意味である。難聴者と聴覚者のコミュニケーションを容易にするために,手話理解(SLU)タスクのシリーズが研究されている。これらの課題は、多様な視点から手話のトピックを調査し、手話ビデオの効果的な表現を学ぶ上での課題を提起する。
論文参考訳（メタデータ） (2024-08-16T06:04:25Z)
TwIPS: A Large Language Model Powered Texting Application to Simplify Conversational Nuances for Autistic Users [0.0]
自閉症の個人はしばしば、感情的な声調や非文学的なニュアンスを伝え、解釈するのに困難を経験する。大規模言語モデル(LLM)を利用したプロトタイプテキストアプリケーションTwIPSについて述べる。我々は、AIベースのシミュレーションと会話スクリプトを利用して、TwIPSを8人の自閉症参加者で評価する。
論文参考訳（メタデータ） (2024-07-25T04:15:54Z)
EvSign: Sign Language Recognition and Translation with Streaming Events [59.51655336911345]
イベントカメラは、動的手の動きを自然に知覚し、手話作業のための豊富な手作業の手がかりを提供する。イベントベースSLRおよびSLTタスクのための効率的なトランスフォーマーベースフレームワークを提案する。計算コストは0.34%に過ぎず,既存の最先端手法に対して良好に機能する。
論文参考訳（メタデータ） (2024-07-17T14:16:35Z)
SongComposer: A Large Language Model for Lyric and Melody Composition in Song Generation [88.33522730306674]
SongComposerは、シンボリックな歌の表現でメロディーや歌詞を理解し、生成することができた。我々は、人間が音楽のためにデザインした成熟した効率的な方法である象徴的な歌の表現に頼っている。広範な実験により、SongComposerは、歌詞からメロディ生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成において優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2024-02-27T16:15:28Z)
CoVLM: Composing Visual Entities and Relationships in Large Language Models Via Communicative Decoding [66.52659447360104]
CoVLM は LLM を誘導して、テキスト間の視覚的実体と関係を明示的に構成することができる。テキスト間の視覚的実体と関係を明示的に構成するために,LLM をガイドする CoVLM を提案する。
論文参考訳（メタデータ） (2023-11-06T18:59:44Z)
Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文参考訳（メタデータ） (2023-10-10T03:06:38Z)
sign.mt: Real-Time Multilingual Sign Language Translation Application [4.626189039960495]
Sign.mtは、音声言語と署名された言語間のリアルタイム多言語双方向翻訳の先駆的なオープンソースアプリケーションである。聴覚と聴覚のコミュニケーションの相違に対処することを目的としており、音声と署名と署名の両方の方向のシームレスな翻訳を容易にする。アプリは個人的および学術的な用途で使用、変更可能で、翻訳APIもサポートしている。
論文参考訳（メタデータ） (2023-10-08T08:14:03Z)
Translate the Beauty in Songs: Jointly Learning to Align Melody and Translate Lyrics [38.35809268026605]
本稿では,自動翻訳の総合解として,Lyrics-Melody Translation with Adaptive Grouping (LTAG)を提案する。これは、ソース歌詞を同時に翻訳し、各デコードステップでアライメントノートの数を決定することができる、新しいエンコーダ/デコーダフレームワークである。英語と中国語の歌の翻訳データセットで行った実験は、自動評価と人的評価の両方において、我々のモデルの有効性を示した。
論文参考訳（メタデータ） (2023-03-28T03:17:59Z)
SimulSLT: End-to-End Simultaneous Sign Language Translation [55.54237194555432]
既存の手話翻訳手法では、翻訳を開始する前にすべてのビデオを読む必要がある。我々は,最初のエンドツーエンド同時手話翻訳モデルであるSimulSLTを提案する。 SimulSLTは最新のエンドツーエンドの非同時手話翻訳モデルを超えるBLEUスコアを達成する。
論文参考訳（メタデータ） (2021-12-08T11:04:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。