論文の概要: ActivityCLIP: Enhancing Group Activity Recognition by Mining Complementary Information from Text to Supplement Image Modality
- arxiv url: http://arxiv.org/abs/2407.19820v1
- Date: Mon, 29 Jul 2024 09:14:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 14:25:55.215443
- Title: ActivityCLIP: Enhancing Group Activity Recognition by Mining Complementary Information from Text to Supplement Image Modality
- Title(参考訳): ActivityCLIP: テキストから補足情報から補足画像へのモダリティのマイニングによるグループ活動認識の強化
- Authors: Guoliang Xu, Jianqin Yin, Feng Zhou, Yonghao Dang,
- Abstract要約: 以前の方法は、通常、画像モダリティの情報のみを抽出してグループ活動を認識する。
本研究では,アクションラベルに含まれるテキスト情報を抽出するプラグイン・アンド・プレイ方式であるActivityCLIPを提案する。
- 参考スコア(独自算出の注目度): 9.74595267192416
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Previous methods usually only extract the image modality's information to recognize group activity. However, mining image information is approaching saturation, making it difficult to extract richer information. Therefore, extracting complementary information from other modalities to supplement image information has become increasingly important. In fact, action labels provide clear text information to express the action's semantics, which existing methods often overlook. Thus, we propose ActivityCLIP, a plug-and-play method for mining the text information contained in the action labels to supplement the image information for enhancing group activity recognition. ActivityCLIP consists of text and image branches, where the text branch is plugged into the image branch (The off-the-shelf image-based method). The text branch includes Image2Text and relation modeling modules. Specifically, we propose the knowledge transfer module, Image2Text, which adapts image information into text information extracted by CLIP via knowledge distillation. Further, to keep our method convenient, we add fewer trainable parameters based on the relation module of the image branch to model interaction relation in the text branch. To show our method's generality, we replicate three representative methods by ActivityCLIP, which adds only limited trainable parameters, achieving favorable performance improvements for each method. We also conduct extensive ablation studies and compare our method with state-of-the-art methods to demonstrate the effectiveness of ActivityCLIP.
- Abstract(参考訳): 以前の方法は、通常、画像モダリティの情報のみを抽出してグループ活動を認識する。
しかし、マイニング画像情報は飽和状態に近づき、よりリッチな情報を抽出することは困難である。
そのため、他のモダリティから補完情報を抽出して画像情報を補うことがますます重要になっている。
実際、アクションラベルは、アクションの意味を表現するために明確なテキスト情報を提供する。
そこで本研究では,アクションラベルに含まれるテキスト情報を抽出し,グループ活動認識を強化するための画像情報補完を行う,アクティベーションCLIPを提案する。
ActivityCLIPはテキストブランチとイメージブランチで構成されており、そこではテキストブランチがイメージブランチにプラグインされる(オフザシェルフ画像ベース方式)。
テキストブランチにはImage2Textとリレーショナルモデリングモジュールが含まれている。
具体的には,CLIP が抽出したテキスト情報に画像情報を適用する知識伝達モジュール Image2Text を提案する。
さらに,本手法を便利に保つため,テキストブランチのモデル相互作用関係に対して,画像ブランチの関係モジュールに基づくトレーニング可能なパラメータを少なくする。
提案手法の汎用性を示すために,訓練可能なパラメータのみを限定したActivityCLIPを用いて3つの代表的メソッドを複製し,各メソッドの性能改善を実現した。
我々はまた、広範囲にわたるアブレーション研究を行い、我々の方法と最先端の手法を比較して、ActivityCLIPの有効性を実証する。
関連論文リスト
- Training-free Zero-shot Composed Image Retrieval with Local Concept Reranking [34.31345844296072]
合成画像検索は、参照画像と対応する修正テキストの合成クエリを通して、ギャラリー画像から興味のある画像を検索しようとする。
現在の構成画像検索手法の多くは、参照画像、修正テキスト、対応するターゲット画像からなるコストのかかる3重化データセットのトレーニングに対する教師付き学習アプローチに従っている。
そこで本研究では,学習不要なゼロショット合成画像検索手法を提案する。
論文 参考訳(メタデータ) (2023-12-14T13:31:01Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [11.798006331912056]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - CAT-Seg: Cost Aggregation for Open-Vocabulary Semantic Segmentation [56.58365347854647]
私たちは、視覚言語基盤モデル、特にCLIPを適応するためのコストベースの新しいアプローチを導入します。
エンコーダの微調整により,CLIPをセグメント化,未確認のクラスに適応させる手法を提案する。
論文 参考訳(メタデータ) (2023-03-21T12:28:21Z) - Interactive Image Manipulation with Complex Text Instructions [14.329411711887115]
複雑なテキスト命令を用いてインタラクティブに画像を編集する新しい画像操作法を提案する。
ユーザーは画像操作の精度を向上できるだけでなく、拡大、縮小、オブジェクトの削除といった複雑なタスクも実現できる。
CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。
論文 参考訳(メタデータ) (2022-11-25T08:05:52Z) - Knowledge Mining with Scene Text for Fine-Grained Recognition [53.74297368412834]
本研究では,シーンテキスト画像の背景にある暗黙的な文脈知識をマイニングする,エンドツーエンドのトレーニング可能なネットワークを提案する。
我々は,KnowBertを用いて意味表現の関連知識を検索し,それを画像特徴と組み合わせ,きめ細かい分類を行う。
本手法は,3.72%のmAPと5.39%のmAPをそれぞれ上回っている。
論文 参考訳(メタデータ) (2022-03-27T05:54:00Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Boosting Entity-aware Image Captioning with Multi-modal Knowledge Graph [96.95815946327079]
名前付きエンティティの長期分布により、名前付きエンティティと視覚的キューの関係を学習することは困難である。
本稿では、視覚オブジェクトと名前付きエンティティを関連付けるために、マルチモーダルな知識グラフを構築する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2021-07-26T05:50:41Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - TRIE: End-to-End Text Reading and Information Extraction for Document
Understanding [56.1416883796342]
本稿では,統合されたエンドツーエンドのテキスト読解と情報抽出ネットワークを提案する。
テキスト読解のマルチモーダル視覚的特徴とテキスト的特徴は、情報抽出のために融合される。
提案手法は, 精度と効率の両面において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-05-27T01:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。