論文の概要: EASLT: Emotion-Aware Sign Language Translation
- arxiv url: http://arxiv.org/abs/2601.03549v1
- Date: Wed, 07 Jan 2026 03:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-08 18:12:46.124848
- Title: EASLT: Emotion-Aware Sign Language Translation
- Title(参考訳): EASLT:感情対応手話翻訳
- Authors: Guobin Tu, Di Weng,
- Abstract要約: 手話翻訳(SLT)は手動信号(MS)と非手動信号(NMS)の統合を必要とする複雑なクロスモーダルタスクである。
我々は、顔の感情を補助情報としてではなく、堅牢なセマンティックアンカーとして扱うフレームワークである**EASLT* (**E**motion-*A**wareS**ignL**age **T**ranslationを提案する。
- 参考スコア(独自算出の注目度): 8.430402908883073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language Translation (SLT) is a complex cross-modal task requiring the integration of Manual Signals (MS) and Non-Manual Signals (NMS). While recent gloss-free SLT methods have made strides in translating manual gestures, they frequently overlook the semantic criticality of facial expressions, resulting in ambiguity when distinct concepts share identical manual articulations. To address this, we present **EASLT** (**E**motion-**A**ware **S**ign **L**anguage **T**ranslation), a framework that treats facial affect not as auxiliary information, but as a robust semantic anchor. Unlike methods that relegate facial expressions to a secondary role, EASLT incorporates a dedicated emotional encoder to capture continuous affective dynamics. These representations are integrated via a novel *Emotion-Aware Fusion* (EAF) module, which adaptively recalibrates spatio-temporal sign features based on affective context to resolve semantic ambiguities. Extensive evaluations on the PHOENIX14T and CSL-Daily benchmarks demonstrate that EASLT establishes advanced performance among gloss-free methods, achieving BLEU-4 scores of 26.15 and 22.80, and BLEURT scores of 61.0 and 57.8, respectively. Ablation studies confirm that explicitly modeling emotion effectively decouples affective semantics from manual dynamics, significantly enhancing translation fidelity. Code is available at https://github.com/TuGuobin/EASLT.
- Abstract(参考訳): 手話翻訳(SLT)は、手動信号(MS)と非手動信号(NMS)の統合を必要とする複雑なクロスモーダルタスクである。
近年の光沢のないSLT法は手動のジェスチャーの翻訳に力を入れているが、表情の意味的臨界をしばしば見落とし、異なる概念が同一の手動音節を共有すると曖昧さが生じる。
この問題に対処するために、顔への影響を補助情報としてではなく、堅牢なセマンティックアンカーとして扱うフレームワークである**EASLT* (**E**motion-**A*ware **S*ign **L**anguage **T**ranslationを提案する。
EASLTは、表情を二次的な役割に還元する手法とは異なり、継続的な感情的ダイナミクスを捉えるために、専用の感情エンコーダを組み込んでいる。
これらの表現は、感情的文脈に基づいて時空間の符号の特徴を適応的に再検討し、意味的曖昧さを解消する新しい *Emotion-Aware Fusion* (EAF) モジュールを介して統合される。
PHOENIX14T と CSL-Daily のベンチマークによる大規模な評価では、ERSLT はグロスフリーの手法で高度な性能を確立し、それぞれ 26.15 と 22.80 のBLEU-4 と 61.0 と 57.8 のBLEURT のスコアを達成している。
アブレーション研究は、感情を効果的にモデル化することで、感情的意味論を手動のダイナミクスから切り離し、翻訳の忠実性を大幅に向上させることを確認した。
コードはhttps://github.com/TuGuobin/EASLTで入手できる。
関連論文リスト
- EASL: Multi-Emotion Guided Semantic Disentanglement for Expressive Sign Language Generation [7.76229483761977]
感情認識型サイン言語EASL(Emotion-Aware Sign Language)を提案する。
意味的特徴と感情的特徴を別々に抽出するために,段階的な訓練を施した感情意味的不絡みモジュールを導入する。
ポーズデコーディングの間、感情表現はセマンティックな相互作用を誘導し、7クラスの感情的自信スコアを持つサインポーズを生成し、感情的表現認識を可能にする。
論文 参考訳(メタデータ) (2025-11-27T06:04:15Z) - Text-guided Weakly Supervised Framework for Dynamic Facial Expression Recognition [49.41688891301643]
動的表情認識は、映像列間の顔の動きの時間的変化をモデル化することにより、感情状態の同定を目的としている。
DFERの重要な課題は、多数のフレームからなるビデオが単一の感情ラベルに割り当てられる、多対一のラベリングの問題である。
本稿では,テキスト誘導型弱教師付きフレームワークであるTG-DFERを提案する。
論文 参考訳(メタデータ) (2025-11-14T04:49:58Z) - Emotion-Coherent Reasoning for Multimodal LLMs via Emotional Rationale Verifier [53.55996102181836]
本稿では,感情関係検証器 (ERV) と説明リワードを提案する。
本手法は,対象感情と明確に一致した推論をモデルに導出する。
我々のアプローチは、説明と予測の整合性を高めるだけでなく、MLLMが感情的に一貫性があり、信頼できる対話を実現するのにも役立ちます。
論文 参考訳(メタデータ) (2025-10-27T16:40:17Z) - AutoSign: Direct Pose-to-Text Translation for Continuous Sign Language Recognition [0.0]
聴覚障害者コミュニティと聴覚障害者コミュニティのギャップを埋める上で,サインジェスチャを連続的に認識し,それらをグロースに変換することが重要な役割を担っている。
ポーズ列を直接自然言語テキストに変換する自動回帰デコーダのみの変換器であるAutoSignを提案する。
マルチステージパイプラインを削除することで、AutoSignはIsharah-1000データセットを大幅に改善した。
論文 参考訳(メタデータ) (2025-07-26T07:28:33Z) - From Coarse to Nuanced: Cross-Modal Alignment of Fine-Grained Linguistic Cues and Visual Salient Regions for Dynamic Emotion Recognition [7.362433184546492]
動的表情認識は、時間的に変化する顔の動きから人間の感情を識別することを目的としている。
本手法は,動的な動作モデリング,意味的テキストの洗練,トークンレベルのクロスモーダルアライメントを統合し,感情的に有意な特徴の正確な局所化を容易にする。
論文 参考訳(メタデータ) (2025-07-16T04:15:06Z) - VAEmo: Efficient Representation Learning for Visual-Audio Emotion with Knowledge Injection [50.57849622045192]
本稿では,外部知識注入を用いた感情中心型VA表現学習のための効率的なフレームワークであるVAEmoを提案する。
VAEmoは、コンパクトな設計で最先端のパフォーマンスを実現し、統合されたクロスモーダルエンコーディングと感情認識のセマンティックガイダンスの利点を強調している。
論文 参考訳(メタデータ) (2025-05-05T03:00:51Z) - Contrastive Decoupled Representation Learning and Regularization for Speech-Preserving Facial Expression Manipulation [58.189703277322224]
音声保存表情操作(SPFEM)は、特定の参照感情を表示するために話頭を変更することを目的としている。
参照およびソース入力に存在する感情とコンテンツ情報は、SPFEMモデルに対して直接的かつ正確な監視信号を提供することができる。
コントラスト学習による指導として、コンテンツと感情の事前学習を提案し、分離されたコンテンツと感情表現を学習する。
論文 参考訳(メタデータ) (2025-04-08T04:34:38Z) - MASA: Motion-aware Masked Autoencoder with Semantic Alignment for Sign Language Recognition [94.56755080185732]
本研究では,リッチモーションキューとグローバルセマンティック情報を統合したセマンティックアライメント(MASA)を用いたMotion-Awareマスク付きオートエンコーダを提案する。
我々のフレームワークは,包括的手話表現のための局所的な動きの手がかりとグローバルな意味的特徴を同時に学習することができる。
論文 参考訳(メタデータ) (2024-05-31T08:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。