論文の概要: Prompting with Sign Parameters for Low-resource Sign Language Instruction Generation
- arxiv url: http://arxiv.org/abs/2508.16076v2
- Date: Tue, 26 Aug 2025 06:32:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 13:17:04.039814
- Title: Prompting with Sign Parameters for Low-resource Sign Language Instruction Generation
- Title(参考訳): 低リソース手話インストラクション生成のための手話パラメータを用いたプロンプト
- Authors: Md Tariquzzaman, Md Farhan Ishmam, Saiyma Sittul Muna, Md Kamrul Hasan, Hasan Mahmud,
- Abstract要約: 手話(SL)は、聴覚障害と難聴者コミュニティのための双方向コミュニケーションを可能にする。
多くの手話言語は、AI分野では未公開のままである。
ステップバイステップのテキスト命令を生成し、非SLユーザがSLジェスチャを模倣して学習できるようにする。
- 参考スコア(独自算出の注目度): 2.6171111742555015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sign Language (SL) enables two-way communication for the deaf and hard-of-hearing community, yet many sign languages remain under-resourced in the AI space. Sign Language Instruction Generation (SLIG) produces step-by-step textual instructions that enable non-SL users to imitate and learn SL gestures, promoting two-way interaction. We introduce BdSLIG, the first Bengali SLIG dataset, used to evaluate Vision Language Models (VLMs) (i) on under-resourced SLIG tasks, and (ii) on long-tail visual concepts, as Bengali SL is unlikely to appear in the VLM pre-training data. To enhance zero-shot performance, we introduce Sign Parameter-Infused (SPI) prompting, which integrates standard SL parameters, like hand shape, motion, and orientation, directly into the textual prompts. Subsuming standard sign parameters into the prompt makes the instructions more structured and reproducible than free-form natural text from vanilla prompting. We envision that our work would promote inclusivity and advancement in SL learning systems for the under-resourced communities.
- Abstract(参考訳): 手話(SL)は、聴覚障害と難聴のコミュニティのための双方向コミュニケーションを可能にするが、多くの手話言語はAIの分野で未公開のままである。
SLIG (Sign Language Instruction Generation) は、非SLユーザーがSLジェスチャを模倣して学習し、双方向インタラクションを促進するためのステップバイステップのテキスト命令を生成する。
我々は、視覚言語モデル(VLM)を評価するために使用される最初のベンガルSLIGデータセットであるBdSLIGを紹介する。
(i)未資源のSLIGタスク、及び
(II) VLM事前学習データにベンガルSLが現れる可能性は低いため, 長い尾の視覚概念について検討した。
ゼロショット性能を向上させるため,手形,動き,方向などの標準SLパラメータをテキストプロンプトに直接組み込む手動パラメータ注入プロンプト(SPI)を導入する。
標準的な記号パラメータをプロンプトに挿入すると、命令はバニラプロンプトから自由形式の自然文よりも構造化され再現可能である。
本研究は,低リソースコミュニティにおけるSL学習システムのインクリシティと進歩を促進することを目的としている。
関連論文リスト
- Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation [6.688680877428467]
そこで我々は,Gloss-free Multimodal Sign Language Translationフレームワークを提案する。
マルチモーダルな大言語モデルを用いて手話コンポーネントの詳細なテキスト記述を生成する。
提案手法は,ベンチマークデータセットPHOENIX14TとCSL-Dailyの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-11-25T09:01:41Z) - SCOPE: Sign Language Contextual Processing with Embedding from LLMs [49.5629738637893]
世界中の約7000万人の聴覚障害者が使用する手話は、視覚的および文脈的な情報を伝える視覚言語である。
視覚に基づく手話認識(SLR)と翻訳(SLT)の現在の手法は、限られたデータセットの多様性と文脈に関連のある情報の無視により、対話シーンに苦慮している。
SCOPEは、コンテキスト認識型ビジョンベースSLRおよびSLTフレームワークである。
論文 参考訳(メタデータ) (2024-09-02T08:56:12Z) - MS2SL: Multimodal Spoken Data-Driven Continuous Sign Language Production [93.32354378820648]
我々は,手話と非手話のユーザ間のコミュニケーションを緩和する,連続手話生成のための統一フレームワークを提案する。
テキストや音声から抽出した埋め込みを利用したシーケンス拡散モデルを作成し、段階的にサイン予測を生成する。
How2SignとPHOENIX14Tデータセットの実験により、手話生成において、我々のモデルが競合性能を達成することを示す。
論文 参考訳(メタデータ) (2024-07-04T13:53:50Z) - A Spatio-Temporal Representation Learning as an Alternative to Traditional Glosses in Sign Language Translation and Production [9.065171626657818]
本稿では,手話翻訳(SLT)と手話生成言語(SLP)におけるグロスの使用に関する課題について述べる。
テンポラリな手話をキャプチャするフレームワークUniGloR(UniGloR)を導入する。
キーポイントに基づく設定実験により、UniGloRは従来のSLT法やSLP法よりも性能が優れているか、一致していることが示された。
論文 参考訳(メタデータ) (2024-07-03T07:12:36Z) - Large Language Models are Interpretable Learners [53.56735770834617]
本稿では,Large Language Models(LLM)とシンボルプログラムの組み合わせによって,表現性と解釈可能性のギャップを埋めることができることを示す。
自然言語プロンプトを持つ事前訓練されたLLMは、生の入力を自然言語の概念に変換することができる解釈可能な膨大なモジュールセットを提供する。
LSPが学んだ知識は自然言語の記述と記号規則の組み合わせであり、人間(解釈可能)や他のLLMに容易に転送できる。
論文 参考訳(メタデータ) (2024-06-25T02:18:15Z) - SignLLM: Sign Language Production Large Language Models [31.557139567708067]
我々は多言語手話生成(SLP)大言語モデルであるSignLLMを提案する。
2つの新しいSLPモードMLSFとPrompt2LangGlossは、クエリテキスト入力と質問スタイルプロンプト入力から手話ジェスチャーを生成することができる。
我々はSignLLMを広範に評価し、8つの手話言語でSLPタスクの最先端性能を実現することを実証した。
論文 参考訳(メタデータ) (2024-05-17T12:01:43Z) - A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Gloss-free Sign Language Translation: Improving from Visual-Language
Pretraining [56.26550923909137]
Gloss-Free Sign Language Translation (SLT) はドメイン横断性のために難しい課題である。
視覚言語事前学習(GFSLT-)に基づく新しいGross-free SLTを提案する。
i) コントラスト言語-画像事前学習とマスク付き自己教師付き学習を統合して,視覚的表現とテキスト的表現のセマンティックギャップをブリッジするプレタスクを作成し,マスク付き文を復元すること,(ii) 事前訓練されたビジュアルおよびテキストデコーダのパラメータを継承するエンコーダ-デコーダ-のような構造を持つエンドツーエンドアーキテクチャを構築すること,である。
論文 参考訳(メタデータ) (2023-07-27T10:59:18Z) - Gloss Attention for Gloss-free Sign Language Translation [60.633146518820325]
グロスアノテーションによって手話の翻訳が容易になることを示す。
次に,同じセマンティクスを持つビデオセグメント内で,モデルが注意を維持できるように,エンファングルースアテンションを提案する。
複数の大規模手話データセットに対する実験結果から,提案したGASLTモデルは既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-14T14:07:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。