論文の概要: GLOS: Sign Language Generation with Temporally Aligned Gloss-Level Conditioning
- arxiv url: http://arxiv.org/abs/2506.07460v1
- Date: Mon, 09 Jun 2025 06:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.825803
- Title: GLOS: Sign Language Generation with Temporally Aligned Gloss-Level Conditioning
- Title(参考訳): GLOS: 一時アライズされたGross-Levelコンディショニングによる手話生成
- Authors: Taeryung Lee, Hyeongjin Nam, Gyeongsik Moon, Kyoung Mu Lee,
- Abstract要約: GLOSは手話生成フレームワークであり、時間的に並んだ光沢レベル条件付けを備えている。
本手法は,CSL-Daily と Phoenix-2014T の先行手法よりも高い精度で,正しい語彙順と高い意味精度の符号を生成する。
- 参考スコア(独自算出の注目度): 60.86278956347739
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign language generation (SLG), or text-to-sign generation, bridges the gap between signers and non-signers. Despite recent progress in SLG, existing methods still often suffer from incorrect lexical ordering and low semantic accuracy. This is primarily due to sentence-level condition, which encodes the entire sentence of the input text into a single feature vector as a condition for SLG. This approach fails to capture the temporal structure of sign language and lacks the granularity of word-level semantics, often leading to disordered sign sequences and ambiguous motions. To overcome these limitations, we propose GLOS, a sign language generation framework with temporally aligned gloss-level conditioning. First, we employ gloss-level conditions, which we define as sequences of gloss embeddings temporally aligned with the motion sequence. This enables the model to access both the temporal structure of sign language and word-level semantics at each timestep. As a result, this allows for fine-grained control of signs and better preservation of lexical order. Second, we introduce a condition fusion module, temporal alignment conditioning (TAC), to efficiently deliver the word-level semantic and temporal structure provided by the gloss-level condition to the corresponding motion timesteps. Our method, which is composed of gloss-level conditions and TAC, generates signs with correct lexical order and high semantic accuracy, outperforming prior methods on CSL-Daily and Phoenix-2014T.
- Abstract(参考訳): シグナ言語生成(SLG)は、シグナと非シグナの間のギャップを埋める。
SLGの最近の進歩にもかかわらず、既存の手法はいまだに誤った語彙順序付けと意味的精度の低下に悩まされている。
これは主に文レベルの条件によるもので、入力テキストの全文をSLGの条件として単一の特徴ベクトルにエンコードする。
このアプローチは手話の時間構造を捉えず、単語レベルの意味論の粒度が欠けているため、しばしば混乱した手話列やあいまいな動きにつながる。
これらの制約を克服するために,時間的に整列したグロスレベル条件付き手話生成フレームワークであるGLOSを提案する。
まず、光沢レベルの条件を用いて、運動列に時間的に整合した光沢埋め込みの列と定義する。
これにより、各時点における手話と単語レベルのセマンティクスの時間的構造の両方にアクセスすることができる。
結果として、サインのきめ細かい制御と語彙順の保存が可能である。
次に,時間的アライメント・コンディショニング(TAC)という条件融合モジュールを導入し,単語レベルでのセマンティクスと時間的構造を対応する動作時間ステップに効率的に提供する。
CSL-Daily と Phoenix-2014T の先行手法よりも高い精度で, 適切な語彙順と高精度な符号を生成する。
関連論文リスト
- Bridging Sign and Spoken Languages: Pseudo Gloss Generation for Sign Language Translation [48.20483623444857]
手話翻訳は、手話動画を音声テキストにマッピングすることを目的としている。
一般的なアプローチは、中間表現としてのグロスアノテーションに依存している。
そこで我々は,人間に注釈付けされたグルースを不要とした光沢のない擬似グルース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:19:55Z) - Collaborative Temporal Consistency Learning for Point-supervised Natural Language Video Localization [129.43937834515688]
我々は,ビデオ言語アライメントを強化するために,新しいコラボラティブ・テンポラル・コンポジション・ラーニング(COTEL)フレームワークを提案する。
具体的には、まずフレームとセグメントレベルの時間一貫性学習(TCL)モジュールを設計し、フレームサリエンシと文-モーメントペア間のセマンティックアライメントをモデル化する。
論文 参考訳(メタデータ) (2025-03-22T05:04:12Z) - Hierarchical Autoregressive Transformers: Combining Byte- and Word-Level Processing for Robust, Adaptable Language Models [3.382910438968506]
トークン化は自然言語処理の基本的なステップであり、テキストを計算モデルが処理できる単位に分割する。
文字レベルと単語レベルの処理を組み合わせた自己回帰型言語モデリングのための階層的アーキテクチャについて検討する。
我々は、70億のパラメータをスケールして、階層変換器がサブワードトケナイザベースのモデルの下流タスク性能と一致することを実証する。
論文 参考訳(メタデータ) (2025-01-17T17:51:53Z) - A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。
テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。
キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。