論文の概要: MonSTeR: a Unified Model for Motion, Scene, Text Retrieval
- arxiv url: http://arxiv.org/abs/2510.03200v1
- Date: Fri, 03 Oct 2025 17:37:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.512883
- Title: MonSTeR: a Unified Model for Motion, Scene, Text Retrieval
- Title(参考訳): MonSTeR: モーション、シーン、テキスト検索のための統一モデル
- Authors: Luca Collorone, Matteo Gioia, Massimiliano Pappa, Paolo Leoni, Giovanni Ficarra, Or Litany, Indro Spinelli, Fabio Galasso,
- Abstract要約: 本稿では,最初のMOtioN-Scene-TExt RetrievalモデルであるMonSTeRを紹介する。
高階関係のモデリングにインスパイアされたMonSTeRは、単項表現とクロスモーダル表現を活用することにより、統一潜在空間を構築する。
以上の結果から, MonSTeR は単項表現のみに依存する三次モデルよりも優れていた。
- 参考スコア(独自算出の注目度): 19.861353525673888
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intention drives human movement in complex environments, but such movement can only happen if the surrounding context supports it. Despite the intuitive nature of this mechanism, existing research has not yet provided tools to evaluate the alignment between skeletal movement (motion), intention (text), and the surrounding context (scene). In this work, we introduce MonSTeR, the first MOtioN-Scene-TExt Retrieval model. Inspired by the modeling of higher-order relations, MonSTeR constructs a unified latent space by leveraging unimodal and cross-modal representations. This allows MonSTeR to capture the intricate dependencies between modalities, enabling flexible but robust retrieval across various tasks. Our results show that MonSTeR outperforms trimodal models that rely solely on unimodal representations. Furthermore, we validate the alignment of our retrieval scores with human preferences through a dedicated user study. We demonstrate the versatility of MonSTeR's latent space on zero-shot in-Scene Object Placement and Motion Captioning. Code and pre-trained models are available at github.com/colloroneluca/MonSTeR.
- Abstract(参考訳): 意図は複雑な環境で人間の動きを駆動するが、そのような動きは周囲の文脈がそれをサポートする場合にのみ起こりうる。
このメカニズムの直感的な性質にもかかわらず、既存の研究はまだ骨格運動(運動)、意図(文章)、周囲の文脈(シーン)のアライメントを評価するためのツールを提供していない。
本稿では,最初のMOtioN-Scene-TExt RetrievalモデルであるMonSTeRを紹介する。
高階関係のモデリングにインスパイアされたMonSTeRは、単項表現とクロスモーダル表現を活用することにより、統一潜在空間を構築する。
これにより、MonSTeRはモダリティ間の複雑な依存関係をキャプチャし、様々なタスク間で柔軟だが堅牢な検索を可能にする。
以上の結果から, MonSTeR は単項表現のみに依存する三次モデルよりも優れていた。
さらに,検索スコアと人選好とのアライメントを,専用のユーザスタディを通じて検証する。
ゼロショット・イン・シーン・オブジェクト配置とモーション・キャプションにおけるMonSTeRの潜伏空間の汎用性を示す。
コードと事前訓練されたモデルはgithub.com/colloroneluca/MonSTeRで入手できる。
関連論文リスト
- Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - Enhanced Partially Relevant Video Retrieval through Inter- and Intra-Sample Analysis with Coherence Prediction [18.24629930062925]
部分的に関連のあるビデオ検索は、テキストクエリに関連するターゲットビデオを取得することを目的としている。
既存の手法は、セマンティック空間を構築するために、ペア化されたビデオとテキストクエリを粗く整列する。
サンプル間相関とサンプル内冗長性を体系的に活用する新しいPRVRフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-28T09:52:46Z) - Sports-Traj: A Unified Trajectory Generation Model for Multi-Agent Movement in Sports [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを紹介する。
バスケットボールU,サッカーU,サッカーUの3つの実践的スポーツデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - TMR: Text-to-Motion Retrieval Using Contrastive 3D Human Motion
Synthesis [59.465092047829835]
我々は、テキストから3次元の人間の動きを抽出する簡単な方法であるTMRを提案する。
提案手法は,最先端のテキスト-モーション合成モデルTEMOSを拡張した。
運動生成損失の維持は、対照的な訓練とともに、優れた性能を得るためには不可欠であることを示す。
論文 参考訳(メタデータ) (2023-05-02T17:52:41Z) - MonoHuman: Animatable Human Neural Field from Monocular Video [30.113937856494726]
そこで我々は,任意のポーズの下で,ビュー一貫性と高忠実度アバターを強固に描画する新しいフレームワークMonoHumanを提案する。
我々のキーとなる洞察は、変形場を双方向の制約でモデル化し、オフザペグ情報を明示的に活用して、特徴を一貫性のある結果の推論を行うことである。
論文 参考訳(メタデータ) (2023-04-04T17:55:03Z) - MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。
我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。
データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文 参考訳(メタデータ) (2022-06-16T09:06:25Z) - Support-set based Multi-modal Representation Enhancement for Video
Captioning [121.70886789958799]
サンプル間で共有されるセマンティックサブ空間において、リッチな情報をマイニングするためのサポートセットベースのマルチモーダル表現拡張(SMRE)モデルを提案する。
具体的には、サンプル間の基礎となる関係を学習し、意味的関連視覚要素を得るためのサポートセットを構築するためのサポートセット構築(SC)モジュールを提案する。
本研究では,SST(Semantic Space Transformation)モジュールを設計し,相対距離を制約し,マルチモーダルインタラクションを自己管理的に管理する。
論文 参考訳(メタデータ) (2022-05-19T03:40:29Z) - Background-Click Supervision for Temporal Action Localization [82.4203995101082]
時間的行動ローカライゼーションの弱さは、ビデオレベルのラベルからインスタンスレベルのアクションパターンを学習することを目的としており、アクションコンテキストの混乱が大きな課題である。
最近の作業の1つは、アクションクリックの監視フレームワークを構築している。
同様のアノテーションのコストを必要とするが、従来の弱い教師付き手法と比較して、着実にローカライズ性能を向上させることができる。
本稿では,既存の手法の性能ボトルネックが背景誤差に起因していることを明らかにすることにより,より強力なアクションローカライザを,アクションフレームではなく,バックグラウンドビデオフレーム上のラベルでトレーニングできることを見出した。
論文 参考訳(メタデータ) (2021-11-24T12:02:52Z) - MoCo-Flow: Neural Motion Consensus Flow for Dynamic Humans in Stationary
Monocular Cameras [98.40768911788854]
4次元連続時間変動関数を用いて動的シーンをモデル化する表現であるMoCo-Flowを紹介する。
私たちの研究の中心には、運動フロー上の運動コンセンサス正規化によって制約される、新しい最適化の定式化がある。
複雑度の異なる人間の動きを含む複数のデータセット上でMoCo-Flowを広範囲に評価した。
論文 参考訳(メタデータ) (2021-06-08T16:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。