論文の概要: MultimodalHugs: Enabling Sign Language Processing in Hugging Face
- arxiv url: http://arxiv.org/abs/2509.09729v1
- Date: Wed, 10 Sep 2025 11:14:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.862438
- Title: MultimodalHugs: Enabling Sign Language Processing in Hugging Face
- Title(参考訳): MultimodalHugs: ハングフェイスで手話処理を実現する
- Authors: Gerard Sant, Zifan Jiang, Carlos Escolano, Amit Moryossef, Mathias Müller, Rico Sennrich, Sarah Ebling,
- Abstract要約: MultimodalHugsはHugging Face上に構築されたフレームワークで、より多様なデータモダリティとタスクを可能にする。
我々は,手話のポーズ推定データや文字のピクセルデータなど,マルチモーダルHugsが様々なモダリティに対応できることを示す実験を行った。
- 参考スコア(独自算出の注目度): 29.629091882627165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, sign language processing (SLP) has gained importance in the general field of Natural Language Processing. However, compared to research on spoken languages, SLP research is hindered by complex ad-hoc code, inadvertently leading to low reproducibility and unfair comparisons. Existing tools that are built for fast and reproducible experimentation, such as Hugging Face, are not flexible enough to seamlessly integrate sign language experiments. This view is confirmed by a survey we conducted among SLP researchers. To address these challenges, we introduce MultimodalHugs, a framework built on top of Hugging Face that enables more diverse data modalities and tasks, while inheriting the well-known advantages of the Hugging Face ecosystem. Even though sign languages are our primary focus, MultimodalHugs adds a layer of abstraction that makes it more widely applicable to other use cases that do not fit one of the standard templates of Hugging Face. We provide quantitative experiments to illustrate how MultimodalHugs can accommodate diverse modalities such as pose estimation data for sign languages, or pixel data for text characters.
- Abstract(参考訳): 近年,自然言語処理の分野において,手話処理(SLP)の重要性が高まっている。
しかし、音声言語の研究と比較して、SLPの研究は複雑なアドホックコードによって妨げられ、不注意にも再現性が低く、不公平な比較に繋がる。
Hugging Faceのような高速かつ再現可能な実験のために構築されている既存のツールは、手話実験をシームレスに統合するのに十分な柔軟性を持っていない。
この見解は、SLP研究者による調査によって確認された。
これらの課題に対処するため、Hugging Face上に構築されたフレームワークであるMultimodalHugsを導入しました。
手話が中心ですが、MultimodalHugsは抽象レイヤを追加し、Hugging Faceの標準的なテンプレートに適合しない他のユースケースにもより広く適用できるようにします。
我々は,手話のポーズ推定データや文字のピクセルデータなど,マルチモーダルHugsが様々なモダリティに対応できることを示す定量的実験を行った。
関連論文リスト
- BRIGHTER: BRIdging the Gap in Human-Annotated Textual Emotion Recognition Datasets for 28 Languages [93.92804151830744]
BRIGHTERは、28の言語で複数ラベル付き、感情アノテートされたデータセットの集合である。
データ収集とアノテーションプロセスに関する課題を強調します。
BRIGHTERデータセットは、テキストベースの感情認識のギャップに対処するための重要なステップであることを示す。
論文 参考訳(メタデータ) (2025-02-17T15:39:50Z) - Exploring Vision Language Models for Multimodal and Multilingual Stance Detection [9.079302402271491]
ソーシャルメディアのグローバルリーチは情報の拡散を増幅し、堅牢な自然言語処理タスクの必要性を強調している。
以前の研究では主にテキストのみの入力に焦点が当てられ、マルチモーダルなシナリオは比較的過小評価されている。
本稿では,マルチモーダルおよび多言語姿勢検出タスクにおけるVLM(Vision-Language Models)の評価を行う。
論文 参考訳(メタデータ) (2025-01-29T13:39:53Z) - Improving Linguistic Diversity of Large Language Models with Possibility Exploration Fine-Tuning [23.456302461693053]
PEFT(Possibility Exploration Fine-Tuning)は、大規模言語モデル(LLM)のテキストの多様性を高めるためのタスクに依存しないフレームワークである。
PEFT は LLM 出力の多様性を著しく向上させる。
また、対話システムにおける人口統計バイアスを顕著に低減することができる。
論文 参考訳(メタデータ) (2024-12-04T14:23:16Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - TextMI: Textualize Multimodal Information for Integrating Non-verbal
Cues in Pre-trained Language Models [5.668457303716451]
マルチモーダルな行動分析タスクのための汎用的,競争的なベースラインとして,TextMIを提案する。
我々のアプローチは、モデルの複雑さを著しく減らし、モデルの判断に解釈可能性を追加し、様々なタスクに適用できます。
論文 参考訳(メタデータ) (2023-03-27T17:54:32Z) - WLASL-LEX: a Dataset for Recognising Phonological Properties in American
Sign Language [2.814213966364155]
我々は6つの異なる音韻特性を付加したアメリカ手話記号の大規模データセットを構築した。
データ駆動のエンドツーエンドと機能ベースのアプローチが、これらの特性を自動認識するために最適化できるかどうかを検討する。
論文 参考訳(メタデータ) (2022-03-11T17:21:24Z) - Intrinsic Probing through Dimension Selection [69.52439198455438]
現代のほとんどのNLPシステムは、様々なタスクにおいて驚くほど高いパフォーマンスが得られる事前訓練された文脈表現を使用している。
このような高いパフォーマンスは、ある種の言語構造がこれらの表現に根ざしない限りはあり得ず、それを探究する研究が盛んに行われている。
本稿では,言語情報が表現内でどのように構造化されているかを示す内在的探索と,先行研究で広く普及している外在的探索とを区別し,抽出に成功したことを示すことによって,そのような情報の存在を主張するのみである。
論文 参考訳(メタデータ) (2020-10-06T15:21:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。