論文の概要: RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection
- arxiv url: http://arxiv.org/abs/2209.01814v1
- Date: Mon, 5 Sep 2022 07:50:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 14:01:19.146534
- Title: RLIP: Relational Language-Image Pre-training for Human-Object
Interaction Detection
- Title(参考訳): RLIP:人間と物体の相互作用検出のための関係言語画像事前学習
- Authors: Hangjie Yuan, Jianwen Jiang, Samuel Albanie, Tao Feng, Ziyuan Huang,
Dong Ni, Mingqian Tang
- Abstract要約: 言語画像事前学習(Language- Image Pre-Training、LIPR)は、エンティティと関係記述の両方を活用するコントラスト事前学習の戦略である。
RLIP-ParSeと呼ばれるこれらのコントリビューションの利点は、ゼロショット、少数ショット、微調整のHOI検出の改善、およびノイズアノテーションからの堅牢性の向上である。
- 参考スコア(独自算出の注目度): 32.20132357830726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The task of Human-Object Interaction (HOI) detection targets fine-grained
visual parsing of humans interacting with their environment, enabling a broad
range of applications. Prior work has demonstrated the benefits of effective
architecture design and integration of relevant cues for more accurate HOI
detection. However, the design of an appropriate pre-training strategy for this
task remains underexplored by existing approaches. To address this gap, we
propose Relational Language-Image Pre-training (RLIP), a strategy for
contrastive pre-training that leverages both entity and relation descriptions.
To make effective use of such pre-training, we make three technical
contributions: (1) a new Parallel entity detection and Sequential relation
inference (ParSe) architecture that enables the use of both entity and relation
descriptions during holistically optimized pre-training; (2) a synthetic data
generation framework, Label Sequence Extension, that expands the scale of
language data available within each minibatch; (3) mechanisms to account for
ambiguity, Relation Quality Labels and Relation Pseudo-Labels, to mitigate the
influence of ambiguous/noisy samples in the pre-training data. Through
extensive experiments, we demonstrate the benefits of these contributions,
collectively termed RLIP-ParSe, for improved zero-shot, few-shot and
fine-tuning HOI detection performance as well as increased robustness to
learning from noisy annotations. Code will be available at
\url{https://github.com/JacobYuan7/RLIP}.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(hoi)検出のタスクは、環境と相互作用する人間のきめ細かい視覚的解析をターゲットとし、幅広いアプリケーションを可能にする。
以前の研究は、より正確なhoi検出のために効果的なアーキテクチャ設計と関連する手がかりの統合の利点を実証した。
しかしながら、このタスクのための適切な事前学習戦略の設計は、既存のアプローチによって未検討のままである。
このギャップに対処するために,リレーショナル・ランゲージ・イメージ・プレトレーニング(rlip,relational language-image pre-training)を提案する。
To make effective use of such pre-training, we make three technical contributions: (1) a new Parallel entity detection and Sequential relation inference (ParSe) architecture that enables the use of both entity and relation descriptions during holistically optimized pre-training; (2) a synthetic data generation framework, Label Sequence Extension, that expands the scale of language data available within each minibatch; (3) mechanisms to account for ambiguity, Relation Quality Labels and Relation Pseudo-Labels, to mitigate the influence of ambiguous/noisy samples in the pre-training data.
RLIP-ParSeと呼ばれるこれらのコントリビューションの広範な実験を通じて、ゼロショット、少数ショット、微調整によるHOI検出性能の向上、およびノイズの多いアノテーションからの学習に対する堅牢性の向上に対する利点を実証する。
コードは \url{https://github.com/JacobYuan7/RLIP} で入手できる。
関連論文リスト
- Spatio-Temporal Context Prompting for Zero-Shot Action Detection [13.22912547389941]
本稿では,視覚言語モデルの豊富な知識を効果的に活用し,対人インタラクションを実現する手法を提案する。
同時に複数の人物による異なる行動を認識するという課題に対処するために,興味あるトークンスポッティング機構を設計する。
提案手法は,従来の手法に比べて優れた結果を得ることができ,さらにマルチアクションビデオに拡張することができる。
論文 参考訳(メタデータ) (2024-08-28T17:59:05Z) - RLIPv2: Fast Scaling of Relational Language-Image Pre-training [53.21796397618875]
本稿では,大規模な擬似ラベル付きシーングラフデータに対する事前学習のリレーショナルスケーリングを可能にする高速収束モデルRLIPv2を提案する。
非対称言語画像融合 (ALIF) は、より早く、より深く分岐したクロスモーダル融合と、スパシファイド言語による符号化を容易にする。
RLIPv2は、3つのベンチマークで、完全な微調整、少数ショット、ゼロショット設定で、最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-08-18T07:17:09Z) - HOICLIP: Efficient Knowledge Transfer for HOI Detection with
Vision-Language Models [30.279621764192843]
人間-物体相互作用(Human-Object Interaction、HOI)は、人-物体のペアを局所化し、その相互作用を認識することを目的としている。
対照的な言語-画像事前学習(CLIP)は、HOI検出器に先立って相互作用を提供する大きな可能性を示している。
本稿では,CLIPから事前知識を効率的に抽出し,より優れた一般化を実現する新しいHOI検出フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T07:54:54Z) - USER: Unified Semantic Enhancement with Momentum Contrast for Image-Text
Retrieval [115.28586222748478]
Image-Text Retrieval (ITR) は、与えられたクエリに意味のあるターゲットインスタンスを、他のモダリティから検索することを目的としている。
既存のアプローチは通常、2つの大きな制限に悩まされる。
論文 参考訳(メタデータ) (2023-01-17T12:42:58Z) - Learning to Relate Depth and Semantics for Unsupervised Domain
Adaptation [87.1188556802942]
教師なしドメイン適応(UDA)設定において,視覚的タスク関係を符号化してモデル性能を向上させる手法を提案する。
本稿では,意味的および深さ的予測のタスク依存性を符号化する新しいクロスタスク関係層(ctrl)を提案する。
さらに、セマンティック擬似ラベルを利用してターゲットドメインを監督する反復自己学習(ISL)トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2021-05-17T13:42:09Z) - A Graph-based Interactive Reasoning for Human-Object Interaction
Detection [71.50535113279551]
本稿では,HOIを推論するインタラクティブグラフ(Interactive Graph, in-Graph)という,グラフに基づくインタラクティブ推論モデルを提案する。
In-GraphNet と呼ばれる HOI を検出するための新しいフレームワークを構築した。
私たちのフレームワークはエンドツーエンドのトレーニングが可能で、人間のポーズのような高価なアノテーションはありません。
論文 参考訳(メタデータ) (2020-07-14T09:29:03Z) - A Dependency Syntactic Knowledge Augmented Interactive Architecture for
End-to-End Aspect-based Sentiment Analysis [73.74885246830611]
エンドツーエンドABSAのためのマルチタスク学習を用いた対話型アーキテクチャを新たに提案する。
このモデルは、よく設計された依存性関係埋め込みグラフ畳み込みネットワーク(DreGcn)を活用することで、構文知識(依存性関係と型)を完全に活用することができる。
3つのベンチマークデータセットの大規模な実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-04T14:59:32Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。