論文の概要: RefHCM: A Unified Model for Referring Perceptions in Human-Centric Scenarios
- arxiv url: http://arxiv.org/abs/2412.14643v1
- Date: Thu, 19 Dec 2024 08:51:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:21.056774
- Title: RefHCM: A Unified Model for Referring Perceptions in Human-Centric Scenarios
- Title(参考訳): RefHCM:人間中心シナリオにおける知覚の参照に関する統一モデル
- Authors: Jie Huang, Ruibing Hou, Jiahe Zhao, Hong Chang, Shiguang Shan,
- Abstract要約: RefHCM(Referring Human-Centric Model)は、人間中心の幅広い参照タスクを統合するためのフレームワークである。
RefHCMは、画像、テキスト、座標、パースマップを含む生のマルチモーダルデータをセマンティックトークンに変換するためにシーケンスマージを採用している。
この研究は、一般的なフレームワークで人間の知覚を参照しようとする最初の試みである。
- 参考スコア(独自算出の注目度): 60.772871735598706
- License:
- Abstract: Human-centric perceptions play a crucial role in real-world applications. While recent human-centric works have achieved impressive progress, these efforts are often constrained to the visual domain and lack interaction with human instructions, limiting their applicability in broader scenarios such as chatbots and sports analysis. This paper introduces Referring Human Perceptions, where a referring prompt specifies the person of interest in an image. To tackle the new task, we propose RefHCM (Referring Human-Centric Model), a unified framework to integrate a wide range of human-centric referring tasks. Specifically, RefHCM employs sequence mergers to convert raw multimodal data -- including images, text, coordinates, and parsing maps -- into semantic tokens. This standardized representation enables RefHCM to reformulate diverse human-centric referring tasks into a sequence-to-sequence paradigm, solved using a plain encoder-decoder transformer architecture. Benefiting from a unified learning strategy, RefHCM effectively facilitates knowledge transfer across tasks and exhibits unforeseen capabilities in handling complex reasoning. This work represents the first attempt to address referring human perceptions with a general-purpose framework, while simultaneously establishing a corresponding benchmark that sets new standards for the field. Extensive experiments showcase RefHCM's competitive and even superior performance across multiple human-centric referring tasks. The code and data are publicly at https://github.com/JJJYmmm/RefHCM.
- Abstract(参考訳): 人間中心の知覚は、現実世界の応用において重要な役割を果たす。
近年の人間中心の作品は目覚ましい進歩を遂げているが、これらの取り組みは視覚領域に制約され、人間の指示との相互作用が欠如しており、チャットボットやスポーツ分析といった幅広いシナリオにおける適用性が制限されている。
本稿では,画像に注目する人物を参照プロンプトで指定する「参照人間知覚」について紹介する。
新しい課題に取り組むために,多種多様な人間中心参照タスクを統合する統合フレームワークであるRefHCM(Referring Human-Centric Model)を提案する。
具体的には、RefHCMは、画像、テキスト、座標、解析マップを含む生のマルチモーダルデータをセマンティックトークンに変換するために、シーケンスマージを採用している。
この標準化された表現により、RefHCMは、多種多様な人間中心参照タスクを、平易なエンコーダ・デコーダ変換アーキテクチャを用いて解決したシーケンス・ツー・シーケンスパラダイムに再構成することができる。
RefHCMは、統一的な学習戦略から恩恵を受け、タスク間の知識伝達を効果的に促進し、複雑な推論を扱うための予期せぬ能力を示す。
この研究は、一般目的のフレームワークで人間の知覚を参照するための最初の試みであり、同時に、フィールドの新しい標準を設定するための対応するベンチマークを確立する。
大規模な実験では、RefHCMの競争力と、複数の人間中心の参照タスクにおける優れたパフォーマンスが紹介されている。
コードとデータはhttps://github.com/JJYmmm/RefHCMで公開されている。
関連論文リスト
- Referring Human Pose and Mask Estimation in the Wild [57.12038065541915]
野生における人間行動とマスク推定(R-HPM)について紹介する。
このタスクは、補助ロボティクスやスポーツ分析のような人間中心のアプリケーションにとって大きな可能性を秘めている。
我々は、R-HPMのためのUniPHDと呼ばれる最初のエンドツーエンドのプロンプト可能なアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-27T16:44:15Z) - Unified Framework with Consistency across Modalities for Human Activity Recognition [14.639249548669756]
本稿では,ロバストな映像に基づく人間行動認識のための包括的枠組みを提案する。
主な貢献はComputerと呼ばれる新しいクエリマシンの導入である。
提案手法は,最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T02:25:10Z) - Exploring Conditional Multi-Modal Prompts for Zero-shot HOI Detection [37.57355457749918]
本稿では,条件付きマルチモーダルプロンプット(CMMP)を用いたゼロショットHOI検出のための新しいフレームワークを提案する。
従来のプロンプト学習法とは異なり,対話性を考慮した視覚特徴抽出のための学習用分離視覚と言語用プロンプトを提案する。
条件付きマルチモーダルプロンプトを用いた検知器の有効性を実験により実証し, 様々なゼロショット設定の未確認クラスにおいて, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2024-08-05T14:05:25Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - You Only Learn One Query: Learning Unified Human Query for Single-Stage Multi-Person Multi-Task Human-Centric Perception [37.667147915777534]
人間中心の知覚は、コンピュータビジョンの長年の問題である。
本稿では,一段階多人数マルチタスク人間中心認識(HCP)のための統合多目的フレームワーク(HQNet)を提案する。
Human Queryは、個人のための複雑なインスタンスレベルの機能をキャプチャし、複雑なマルチパーソンシナリオを分離する。
論文 参考訳(メタデータ) (2023-12-09T10:36:43Z) - Unified Human-Scene Interaction via Prompted Chain-of-Contacts [61.87652569413429]
HSI(Human-Scene Interaction)は、AIや仮想現実といった分野において重要なコンポーネントである。
本稿では,言語コマンドによる多様なインタラクションの統一制御を支援する統一型HSIフレームワークUniHSIを提案する。
論文 参考訳(メタデータ) (2023-09-14T17:59:49Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。