論文の概要: ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in
Situation Recognition
- arxiv url: http://arxiv.org/abs/2307.00586v1
- Date: Sun, 2 Jul 2023 15:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 15:18:16.780769
- Title: ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in
Situation Recognition
- Title(参考訳): ClipSitu:状況認識における条件予測のためのCLIPの有効活用
- Authors: Debaditya Roy, Dhruv Verma, Basura Fernando
- Abstract要約: 状況認識とは、活動動詞を用いて画像内で起きていることの構造化された要約を生成するタスクである。
言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。
本研究では, より深い多層パーセプトロンブロックが, 状況認識タスクにおいて注目すべき結果を得ることを示す。
- 参考スコア(独自算出の注目度): 22.450205968408
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Situation Recognition is the task of generating a structured summary of what
is happening in an image using an activity verb and the semantic roles played
by actors and objects. In this task, the same activity verb can describe a
diverse set of situations as well as the same actor or object category can play
a diverse set of semantic roles depending on the situation depicted in the
image. Hence model needs to understand the context of the image and the
visual-linguistic meaning of semantic roles. Therefore, we leverage the CLIP
foundational model that has learned the context of images via language
descriptions. We show that deeper-and-wider multi-layer perceptron (MLP) blocks
obtain noteworthy results for the situation recognition task by using CLIP
image and text embedding features and it even outperforms the state-of-the-art
CoFormer, a Transformer-based model, thanks to the external implicit
visual-linguistic knowledge encapsulated by CLIP and the expressive power of
modern MLP block designs. Motivated by this, we design a cross-attention-based
Transformer using CLIP visual tokens that model the relation between textual
roles and visual entities. Our cross-attention-based Transformer known as
ClipSitu XTF outperforms existing state-of-the-art by a large margin of 14.1%
on semantic role labelling (value) for top-1 accuracy using imSitu dataset. We
will make the code publicly available.
- Abstract(参考訳): 状況認識とは、活動動詞とアクターやオブジェクトによって演じられる意味的役割を用いて、画像内で起こっていることの構造化された要約を生成するタスクである。
このタスクでは、同じアクティビティ動詞が多様な状況の集合を記述することができ、同じアクターやオブジェクトカテゴリが、画像に表示される状況に応じて多様なセマンティックな役割を演じることができる。
したがって、モデルは画像の文脈と意味役割の視覚的言語学的意味を理解する必要がある。
そこで我々は,言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。
より深い多層パーセプトロン(MLP)ブロックは、CLIP画像とテキスト埋め込み機能を用いて、状況認識タスクの注目すべき結果が得られることを示し、CLIPがカプセル化した外部暗黙的視覚言語知識と現代のMLPブロック設計の表現力のおかげで、トランスフォーマーベースのモデルであるCoFormerよりも優れていた。
テキストの役割と視覚的実体の関係をモデル化するCLIPビジュアルトークンを用いた横断的アテンションベースのトランスフォーマーを設計する。
ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、Imsituデータセットを使用してトップ1の精度で意味的役割ラベリング(値)を14.1%向上させ、既存の最先端技術よりも優れています。
私たちはそのコードを公開します。
関連論文リスト
- CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。
本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。
CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文 参考訳(メタデータ) (2024-10-12T06:24:33Z) - Effectively Leveraging CLIP for Generating Situational Summaries of Images and Videos [18.308072018844122]
状況認識とは、エージェントが利用可能な情報や感覚入力に基づいて、様々な状況や状況を特定し、理解する能力である。
ClipSituは、CLIPに基づく画像、動詞、ロール埋め込みを利用して、動詞に関連するすべての役割を満たす名詞を予測する。
この結果から,ClipSituモデルでは,一般的なキャプションに比べて曖昧さを低減した構造化記述を作成できることがわかった。
論文 参考訳(メタデータ) (2024-07-30T08:39:20Z) - pOps: Photo-Inspired Diffusion Operators [55.93078592427929]
pOpsは、CLIPイメージの埋め込みに直接セマンティック演算子をトレーニングするフレームワークである。
pOpsは、異なる意味を持つ様々なフォトインスパイアされた演算子を学ぶのに利用できることを示す。
論文 参考訳(メタデータ) (2024-06-03T13:09:32Z) - Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Prompting Visual-Language Models for Dynamic Facial Expression
Recognition [14.783257517376041]
本稿ではDFER-CLIPと呼ばれる新しい視覚言語モデルを提案する。
これはCLIPモデルに基づいており、幅内動的顔表情認識のために設計されている。
DFEW、FERV39k、MAFWベンチマークの現在の教師付きDFER法と比較すると、最先端の結果が得られる。
論文 参考訳(メタデータ) (2023-08-25T13:52:05Z) - BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid
Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。
本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文 参考訳(メタデータ) (2022-07-09T07:14:44Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。