論文の概要: SKI Models: Skeleton Induced Vision-Language Embeddings for Understanding Activities of Daily Living
- arxiv url: http://arxiv.org/abs/2502.03459v1
- Date: Wed, 05 Feb 2025 18:57:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:27:21.117349
- Title: SKI Models: Skeleton Induced Vision-Language Embeddings for Understanding Activities of Daily Living
- Title(参考訳): SKIモデル:日常生活活動理解のための骨格誘発視覚言語埋め込み
- Authors: Arkaprava Sinha, Dominick Reilly, Francois Bremond, Pu Wang, Srijan Das,
- Abstract要約: 視覚言語埋め込み空間に3Dスケルトンを統合するSKIモデルを導入する。
SKIモデルは骨格言語モデルであるSkeletonCLIPを利用して、共同トレーニングを通じて骨格情報を視覚言語モデル(VLM)とLVLM(Large Vision Language Model)に注入する。
SKIモデルの有効性は、ゼロショットアクション認識およびビデオキャプション生成タスクのために、人気のある3つのADLデータセットで検証される。
- 参考スコア(独自算出の注目度): 11.757523993568416
- License:
- Abstract: The introduction of vision-language models like CLIP has enabled the development of foundational video models capable of generalizing to unseen videos and human actions. However, these models are typically trained on web videos, which often fail to capture the challenges present in Activities of Daily Living (ADL) videos. Existing works address ADL-specific challenges, such as similar appearances, subtle motion patterns, and multiple viewpoints, by combining 3D skeletons and RGB videos. However, these approaches are not integrated with language, limiting their ability to generalize to unseen action classes. In this paper, we introduce SKI models, which integrate 3D skeletons into the vision-language embedding space. SKI models leverage a skeleton-language model, SkeletonCLIP, to infuse skeleton information into Vision Language Models (VLMs) and Large Vision Language Models (LVLMs) through collaborative training. Notably, SKI models do not require skeleton data during inference, enhancing their robustness for real-world applications. The effectiveness of SKI models is validated on three popular ADL datasets for zero-shot action recognition and video caption generation tasks.
- Abstract(参考訳): CLIPのような視覚言語モデルの導入により、見えないビデオや人間のアクションを一般化できる基礎的なビデオモデルの開発が可能になった。
しかしながら、これらのモデルは通常、Webビデオでトレーニングされるため、毎日の生活(ADL)ビデオで発生する課題を捉えられないことが多い。
既存の作業は、3DスケルトンとRGBビデオを組み合わせることで、類似した外観、微妙な動きパターン、複数の視点といったADL固有の課題に対処する。
しかし、これらのアプローチは言語と統合されておらず、見えないアクションクラスに一般化する能力を制限する。
本稿では,3次元骨格を視覚言語埋め込み空間に統合したSKIモデルを提案する。
SKIモデルは骨格言語モデルであるSkeletonCLIPを利用して、共同トレーニングを通じて骨格情報を視覚言語モデル(VLM)とLVLM(Large Vision Language Model)に注入する。
特に、SKIモデルは推論中にスケルトンデータを必要とせず、実世界のアプリケーションに対する堅牢性を高める。
SKIモデルの有効性は、ゼロショットアクション認識とビデオキャプション生成タスクのために、人気のある3つのADLデータセットで検証される。
関連論文リスト
- Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding [41.59673370285659]
本稿では,3次元シーン理解のための様々な視覚符号化モデルを探索する総合的研究について述べる。
評価は,映像ベース,映像ベース,3Dファウンデーションモデルを含む,7つのビジョンファウンデーションエンコーダにまたがる。
DINOv2は優れた性能を示し、ビデオモデルはオブジェクトレベルのタスクに優れ、幾何学的拡散モデルはタスクに有益であり、言語予測モデルは言語関連のタスクに予期せぬ制限を示す。
論文 参考訳(メタデータ) (2024-09-05T17:59:56Z) - Language Model Guided Interpretable Video Action Reasoning [32.999621421295416]
我々はLanguage-guided Interpretable Action Recognition framework (LaIAR)という新しいフレームワークを提案する。
LaIARは、言語モデルからの知識を活用して、認識能力とビデオモデルの解釈可能性の両方を強化する。
本質的には、ビデオモデルと言語モデルを整合させるタスクとして、ビデオモデル決定を理解することの問題を再定義する。
論文 参考訳(メタデータ) (2024-04-02T02:31:13Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Grimoire is All You Need for Enhancing Large Language Models [13.111331915718527]
本稿では,強力な言語モデルを用いてサンプルから学習を行い,これらの学習スキルを推論と応用のために弱い言語モデルに要約し,伝達する手法を提案する。
5つの言語モデルを用いた最大8つのデータセットを用いて実験を行い、弱い言語モデルがSLEICL法によるゼロショットや少数ショット機能よりも一貫した改善を実現することを示した。
論文 参考訳(メタデータ) (2024-01-07T04:32:29Z) - Mug-STAN: Adapting Image-Language Pretrained Models for General Video
Understanding [47.97650346560239]
マルチガイドアライメントモジュール(Mug-STAN)を用いた空間時間補助ネットワークを提案する。
Mug-STANは、CLIPやCoCaといった言語画像事前学習モデルの、ビデオテキスト後トレーニングと微調整の段階における適応性を著しく改善する。
論文 参考訳(メタデータ) (2023-11-25T17:01:38Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。
事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。
本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文 参考訳(メタデータ) (2022-11-14T08:59:59Z) - VidLanKD: Improving Language Understanding via Video-Distilled Knowledge
Transfer [76.3906723777229]
言語理解を改善するためのビデオ言語知識蒸留法VidLanKDを提案する。
我々は、ビデオテキストデータセット上でマルチモーダル教師モデルを訓練し、その知識をテキストデータセットを用いて学生言語モデルに伝達する。
我々の実験では、VidLanKDはテキストのみの言語モデルや発声モデルよりも一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-07-06T15:41:32Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。