論文の概要: Sign Language Recognition in the Age of LLMs
- arxiv url: http://arxiv.org/abs/2604.11225v1
- Date: Mon, 13 Apr 2026 09:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.453629
- Title: Sign Language Recognition in the Age of LLMs
- Title(参考訳): LLM時代の手話認識
- Authors: Vaclav Javorek, Jakub Honzik, Ivan Gruber, Tomas Zelezny, Marek Hruz,
- Abstract要約: 近年の視覚言語モデル (VLM) は多モーダルな推論タスクにおいて高い性能を示した。
ゼロショット設定で手話認識を行うための現代のVLMの能力について検討する。
- 参考スコア(独自算出の注目度): 0.2609784101826761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision Language Models (VLMs) have demonstrated strong performance across a wide range of multimodal reasoning tasks. This raises the question of whether such general-purpose models can also address specialized visual recognition problems such as isolated sign language recognition (ISLR) without task-specific training. In this work, we investigate the capability of modern VLMs to perform ISLR in a zero-shot setting. We evaluate several open-source and proprietary VLMs on the WLASL300 benchmark. Our experiments show that, under prompt-only zero-shot inference, current open-source VLMs remain far behind classic supervised ISLR classifiers by a wide margin. However, follow-up experiments reveal that these models capture partial visual-semantic alignment between signs and text descriptions. Larger proprietary models achieve substantially higher accuracy, highlighting the importance of model scale and training data diversity. All our code is publicly available on GitHub.
- Abstract(参考訳): 近年の視覚言語モデル (VLM) は多モーダルな推論タスクにおいて高い性能を示した。
このような汎用モデルが、タスク固有のトレーニングを使わずに、ISLRのような特殊な視覚認識問題にも対処できるかどうかという疑問が提起される。
本研究では,最新のVLMがゼロショット設定でISLRを実行する能力について検討する。
WLASL300ベンチマークを用いて、オープンソースのVLMとプロプライエタリなVLMを評価した。
実験の結果, 即時のみのゼロショット推論では, 現在のオープンソースVLMは従来型のISLR分類器よりもはるかに遅れていることがわかった。
しかし、追跡実験により、これらのモデルが記号とテキスト記述の間の部分的な視覚的セマンティックなアライメントを捉えていることが判明した。
より大規模なプロプライエタリなモデルは、モデルスケールとトレーニングデータの多様性の重要性を強調しながら、かなり高い精度を達成する。
私たちのコードはGitHubで公開されています。
関連論文リスト
- Seeing Beyond Words: Self-Supervised Visual Learning for Multimodal Large Language Models [53.06230963851451]
JARVISは、MLLMの自己教師型視覚強調のためのJEPAにインスパイアされたフレームワークである。
JARVISは,MLLMの自己教師型視覚強調のためのJEPAに着想を得たフレームワークである。
論文 参考訳(メタデータ) (2025-12-17T19:01:34Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - GenRecal: Generation after Recalibration from Large to Small Vision-Language Models [63.27511432647797]
視覚言語モデル(VLM)は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
視覚言語モデル(VLM)の最近の進歩は、GPT-4Vのようなクローズドソースシステムと同等の性能を達成するために、大きな言語モデル(LLM)を活用している。
論文 参考訳(メタデータ) (2025-06-18T17:59:49Z) - Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。
VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文 参考訳(メタデータ) (2025-06-09T17:59:54Z) - Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている
提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文 参考訳(メタデータ) (2025-06-09T16:55:32Z) - EZ-HOI: VLM Adaptation via Guided Prompt Learning for Zero-Shot HOI Detection [21.091101582856183]
本稿では,効率的なゼロショットHOI検出(EZ-HOI)のための新しい学習フレームワークを提案する。
まず、学習可能なプロンプトに対してLarge Language Model(LLM)とVLMガイダンスを導入し、詳細なHOI記述と視覚的セマンティクスを統合して、VLMをHOIタスクに適用する。
我々は,既存の手法と比較して,トレーニング可能なパラメータの10.35%から33.95%しか持たない,さまざまなゼロショット設定における最先端性能を実現していることを示す。
論文 参考訳(メタデータ) (2024-10-31T13:06:29Z) - Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - Behind the Magic, MERLIM: Multi-modal Evaluation Benchmark for Large Image-Language Models [50.653838482083614]
本稿では,IT-LVLMの基本的なコンピュータビジョンタスクにおける能力を評価するために,スケーラブルなテストベッドを提案する。
MERLIMには300K以上の画像検索ペアが含まれており、IT-LVLMにおけるクロスモーダルな"ハロシン化"イベントの検出に重点を置いている。
論文 参考訳(メタデータ) (2023-12-03T16:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。