論文の概要: Temporal Visual Semantics-Induced Human Motion Understanding with Large Language Models
- arxiv url: http://arxiv.org/abs/2512.22249v1
- Date: Wed, 24 Dec 2025 03:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.931974
- Title: Temporal Visual Semantics-Induced Human Motion Understanding with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた時間的視覚的セマンティックスによる人間の動作理解
- Authors: Zheng Xing, Weibing Zhao,
- Abstract要約: サブスペースクラスタリング技術を用いて、教師なしの人間の動きのセグメンテーションを効果的に実現することができる。
本稿では,人間の動作系列から派生した時間的視覚意味論(TVS)を用いて,サブスペースクラスタリング性能を向上させることを提案する。
実験結果から,提案手法は4つのヒトの動作データセットに対する既存の最先端手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 22.529947693320864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised human motion segmentation (HMS) can be effectively achieved using subspace clustering techniques. However, traditional methods overlook the role of temporal semantic exploration in HMS. This paper explores the use of temporal vision semantics (TVS) derived from human motion sequences, leveraging the image-to-text capabilities of a large language model (LLM) to enhance subspace clustering performance. The core idea is to extract textual motion information from consecutive frames via LLM and incorporate this learned information into the subspace clustering framework. The primary challenge lies in learning TVS from human motion sequences using LLM and integrating this information into subspace clustering. To address this, we determine whether consecutive frames depict the same motion by querying the LLM and subsequently learn temporal neighboring information based on its response. We then develop a TVS-integrated subspace clustering approach, incorporating subspace embedding with a temporal regularizer that induces each frame to share similar subspace embeddings with its temporal neighbors. Additionally, segmentation is performed based on subspace embedding with a temporal constraint that induces the grouping of each frame with its temporal neighbors. We also introduce a feedback-enabled framework that continuously optimizes subspace embedding based on the segmentation output. Experimental results demonstrate that the proposed method outperforms existing state-of-the-art approaches on four benchmark human motion datasets.
- Abstract(参考訳): サブスペースクラスタリング技術を用いて,非教師なしの人体動作分割(HMS)を効果的に実現することができる。
しかし、伝統的な手法は、HMSにおける時間的意味探索の役割を見落としている。
本稿では,大規模言語モデル(LLM)の画像からテキストへの機能を活用して,人間の動き系列から派生した時間的視覚意味論(TVS)を用いて,サブスペースクラスタリング性能を向上させることを提案する。
中心となる考え方は、連続するフレームからLCMを介してテキストの動作情報を抽出し、この学習情報をサブスペースクラスタリングフレームワークに組み込むことである。
主な課題は、LDMを使用して人間の動きシーケンスからTVSを学習し、これらの情報をサブスペースクラスタリングに統合することである。
そこで,LLMを問合せすることで,連続したフレームが同じ動きを描いているかどうかを判断し,その応答に基づいて時間的隣接情報を学習する。
次に、TVS統合サブスペースクラスタリング手法を開発し、時間的正規化器とサブスペース埋め込みを組み込むことにより、各フレームに同様のサブスペース埋め込みを時間的近傍と共有させる。
さらに、分節化は、各フレームの時間的隣り合うグループ化を誘導する時間的制約付き部分空間埋め込みに基づいて実行される。
セグメンテーション出力に基づいてサブスペース埋め込みを継続的に最適化するフィードバック対応フレームワークも導入する。
実験結果から,提案手法は4つのヒトの動作データセットに対する既存の最先端手法よりも優れていることが示された。
関連論文リスト
- Learning Spatio-Temporal Feature Representations for Video-Based Gaze Estimation [50.05866669110754]
映像に基づく視線推定手法は、複数の画像フレームから人間の視線の本質的な時間的ダイナミクスを捉えることを目的としている。
本稿では、CNNバックボーンと専用のチャンネルアテンションと自己注意モジュールを組み合わせたモデルであるSpatio-Temporal Gaze Network(ST-Gaze)を提案する。
そこで本研究では,ST-Gazeが個人固有の適応を伴わずとも最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-12-19T15:15:58Z) - Temporal Rate Reduction Clustering for Human Motion Segmentation [2.902719887963343]
本稿では,ビデオ中のフレームのシーケンスを分割するために,構造化表現と親和性を共同で学習する時間的レート削減クラスタリング(textTR2textC$)を提案する。
我々は5つのベンチマーク・ベンチマーク・データセットで広範囲に実験を行い、異なる特徴抽出器を用いて最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-06-26T13:35:07Z) - Cluster-based Video Summarization with Temporal Context Awareness [9.861215740353247]
TAC-SUMは、ビデオ要約のための新規で効率的なトレーニング不要なアプローチである。
提案手法では,入力映像を時間的に連続したセグメントに分割し,クラスタリングする。
結果の時間認識クラスタは、最終的なサマリーを計算するために使用される。
論文 参考訳(メタデータ) (2024-04-06T05:55:14Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - Anchor-based Multi-view Subspace Clustering with Hierarchical Feature Descent [46.86939432189035]
階層的特徴Descentを用いたアンカーベースマルチビューサブスペースクラスタリングを提案する。
提案手法は最先端技術より一貫して優れている。
論文 参考訳(メタデータ) (2023-10-11T03:29:13Z) - Spatio-Temporal Branching for Motion Prediction using Motion Increments [55.68088298632865]
HMP(Human Motion Prediction)はその多種多様な応用により、人気のある研究トピックとして浮上している。
従来の手法は手作りの機能と機械学習技術に依存している。
HMPのためのインクリメンタル情報を用いた時空間分岐ネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-02T12:04:28Z) - SOC: Semantic-Assisted Object Cluster for Referring Video Object
Segmentation [35.063881868130075]
本稿では,映像レベルの視覚言語的アライメントを高めることによって,映像オブジェクトセグメンテーション(RVOS)について述べる。
本稿では,映像コンテンツとテキストガイダンスを集約したセマンティック支援オブジェクトクラスタ(SOC)を提案する。
我々は、人気のあるRVOSベンチマークで広範な実験を行い、我々の手法は、すべてのベンチマークにおける最先端の競合よりも顕著なマージンで優れています。
論文 参考訳(メタデータ) (2023-05-26T15:13:44Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - Unsupervised Action Segmentation by Joint Representation Learning and
Online Clustering [10.057155889852174]
本稿では,ビデオフレームクラスタリングをプレテキストタスクとして利用する,教師なしアクティビティセグメンテーションのための新しい手法を提案する。
我々は時間的最適輸送を利用してビデオの時間的情報を活用する。
我々の手法は、メモリの制約が大幅に少ないにもかかわらず、以前の方法と同等かそれ以上に機能する。
論文 参考訳(メタデータ) (2021-05-27T17:57:37Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。