論文の概要: Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection
- arxiv url: http://arxiv.org/abs/2307.13529v2
- Date: Mon, 18 Sep 2023 09:28:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 23:08:16.304293
- Title: Re-mine, Learn and Reason: Exploring the Cross-modal Semantic
Correlations for Language-guided HOI detection
- Title(参考訳): Re-mine, Learn and Reason: 言語誘導HOI検出のためのクロスモーダルセマンティック相関の探索
- Authors: Yichao Cao, Qingfei Tang, Feng Yang, Xiu Su, Shan You, Xiaobo Lu and
Chang Xu
- Abstract要約: ヒューマンオブジェクトインタラクション(HOI)検出は、コンピュータビジョンの課題である。
本稿では,構造化テキスト知識を組み込んだHOI検出フレームワークを提案する。
- 参考スコア(独自算出の注目度): 57.13665112065285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human-Object Interaction (HOI) detection is a challenging computer vision
task that requires visual models to address the complex interactive
relationship between humans and objects and predict HOI triplets. Despite the
challenges posed by the numerous interaction combinations, they also offer
opportunities for multimodal learning of visual texts. In this paper, we
present a systematic and unified framework (RmLR) that enhances HOI detection
by incorporating structured text knowledge. Firstly, we qualitatively and
quantitatively analyze the loss of interaction information in the two-stage HOI
detector and propose a re-mining strategy to generate more comprehensive visual
representation.Secondly, we design more fine-grained sentence- and word-level
alignment and knowledge transfer strategies to effectively address the
many-to-many matching problem between multiple interactions and multiple
texts.These strategies alleviate the matching confusion problem that arises
when multiple interactions occur simultaneously, thereby improving the
effectiveness of the alignment process. Finally, HOI reasoning by visual
features augmented with textual knowledge substantially improves the
understanding of interactions. Experimental results illustrate the
effectiveness of our approach, where state-of-the-art performance is achieved
on public benchmarks. We further analyze the effects of different components of
our approach to provide insights into its efficacy.
- Abstract(参考訳): ヒューマン・オブジェクト・インタラクション(human-object interaction, hoi)は、人間と物体の複雑な対話的関係に対処し、hoiトリプルトを予測する視覚モデルを必要とするコンピュータビジョンタスクである。
多くの相互作用の組み合わせによってもたらされる課題にもかかわらず、視覚テキストのマルチモーダル学習の機会を提供する。
本稿では,構造化テキスト知識を取り入れることで,hoi検出を強化する体系的統一フレームワーク(rmlr)を提案する。
Firstly, we qualitatively and quantitatively analyze the loss of interaction information in the two-stage HOI detector and propose a re-mining strategy to generate more comprehensive visual representation.Secondly, we design more fine-grained sentence- and word-level alignment and knowledge transfer strategies to effectively address the many-to-many matching problem between multiple interactions and multiple texts.These strategies alleviate the matching confusion problem that arises when multiple interactions occur simultaneously, thereby improving the effectiveness of the alignment process.
最後に、テキスト知識を付加した視覚特徴によるHOI推論は、インタラクションの理解を大幅に改善する。
実験結果は,公開ベンチマークにおいて最先端のパフォーマンスが達成される手法の有効性を示す。
さらに,このアプローチのさまざまなコンポーネントの効果を解析し,その効果について考察する。
関連論文リスト
- Video Relationship Detection Using Mixture of Experts [1.6574413179773761]
本稿では,専門家の混在を利用した視覚的関係検出手法であるMoE-VRDを紹介する。
MoE-VRDは、視覚処理から関係を抽出するために、主語、述語、オブジェクトの形で言語三つ子を識別する。
実験結果から, 条件付き計算能力と混合実験手法のスケーラビリティは, 最先端手法と比較して, 視覚的関係の検出性能に優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-03-06T19:08:34Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - DER-GCN: Dialogue and Event Relation-Aware Graph Convolutional Neural
Network for Multimodal Dialogue Emotion Recognition [15.4676247289299]
本稿では,多モーダル感情認識(DER-GCN)のための新しい対話・イベント関係対応グラフ畳み込みニューラルネットワークを提案する。
話者間の対話関係をモデル化し、潜在イベント関係情報をキャプチャする。
DER-GCNモデルの有効性を検証したIEMOCAPおよびMELDベンチマークデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-12-17T01:49:40Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - QUAVER: Quantum Unfoldment through Visual Engagement and Storytelling
Resources [0.0]
視覚的ツールと物語構成の使用は,この領域内での理解と関与を著しく増大させる可能性があることを示す。
我々の研究の重要な側面は、視覚的および物語的コンポーネントの統合を最適化するために特別に設計されたエキサイティングなアルゴリズムフレームワークの実装である。
この素材の設計は、視覚信号と物語構成との相互作用を効果的に管理し、量子コンピューティングの主題に対して理想的なエンゲージメントと理解をもたらす。
論文 参考訳(メタデータ) (2023-09-14T21:28:08Z) - Compositional Learning in Transformer-Based Human-Object Interaction
Detection [6.630793383852106]
ラベル付きインスタンスの長期分布は、HOI検出の主要な課題である。
HOI三重奏の性質にインスパイアされた既存のアプローチでは、作曲学習という概念が採用されている。
我々は,構成HoI学習のためのトランスフォーマーベースのフレームワークを創造的に提案する。
論文 参考訳(メタデータ) (2023-08-11T06:41:20Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Towards Interaction Detection Using Topological Analysis on Neural
Networks [55.74562391439507]
ニューラルネットワークでは、あらゆる相互作用する特徴は共通の隠蔽ユニットとの強い重み付けの接続に従う必要がある。
本稿では, 永続的ホモロジーの理論に基づいて, 相互作用強度を定量化するための新しい尺度を提案する。
PID(Persistence Interaction Detection)アルゴリズムを開発した。
論文 参考訳(メタデータ) (2020-10-25T02:15:24Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。