Fugu-MT 論文翻訳(概要): ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition

論文の概要: ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition

arxiv url: http://arxiv.org/abs/2307.00586v3
Date: Mon, 11 Sep 2023 09:43:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 19:27:30.058792
Title: ClipSitu: Effectively Leveraging CLIP for Conditional Predictions in Situation Recognition
Title（参考訳）: ClipSitu:状況認識における条件予測のためのCLIPの有効活用
Authors: Debaditya Roy, Dhruv Verma, Basura Fernando
Abstract要約: 状況認識とは、活動動詞を用いて画像内で起きていることの構造化された要約を生成するタスクである。言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。 ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、セマンティックロールラベリングにおいて、既存の最先端の14.1%よりも優れています。
参考スコア（独自算出の注目度）: 20.000253437661
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Situation Recognition is the task of generating a structured summary of what is happening in an image using an activity verb and the semantic roles played by actors and objects. In this task, the same activity verb can describe a diverse set of situations as well as the same actor or object category can play a diverse set of semantic roles depending on the situation depicted in the image. Hence a situation recognition model needs to understand the context of the image and the visual-linguistic meaning of semantic roles. Therefore, we leverage the CLIP foundational model that has learned the context of images via language descriptions. We show that deeper-and-wider multi-layer perceptron (MLP) blocks obtain noteworthy results for the situation recognition task by using CLIP image and text embedding features and it even outperforms the state-of-the-art CoFormer, a Transformer-based model, thanks to the external implicit visual-linguistic knowledge encapsulated by CLIP and the expressive power of modern MLP block designs. Motivated by this, we design a cross-attention-based Transformer using CLIP visual tokens that model the relation between textual roles and visual entities. Our cross-attention-based Transformer known as ClipSitu XTF outperforms existing state-of-the-art by a large margin of 14.1\% on semantic role labelling (value) for top-1 accuracy using imSitu dataset. {Similarly, our ClipSitu XTF obtains state-of-the-art situation localization performance.} We will make the code publicly available.
Abstract（参考訳）: 状況認識とは、活動動詞とアクターやオブジェクトによって演じられる意味的役割を用いて、画像内で起こっていることの構造化された要約を生成するタスクである。このタスクでは、同じアクティビティ動詞が多様な状況の集合を記述することができ、同じアクターやオブジェクトカテゴリが、画像に表示される状況に応じて多様なセマンティックな役割を演じることができる。したがって、状況認識モデルは、画像のコンテキストと意味的役割の視覚言語的意味を理解する必要がある。そこで我々は,言語記述を通して画像の文脈を学習したCLIP基盤モデルを活用する。より深い多層パーセプトロン(MLP)ブロックは、CLIP画像とテキスト埋め込み機能を用いて、状況認識タスクの注目すべき結果が得られることを示し、CLIPがカプセル化した外部暗黙的視覚言語知識と現代のMLPブロック設計の表現力のおかげで、トランスフォーマーベースのモデルであるCoFormerよりも優れていた。テキストの役割と視覚的実体の関係をモデル化するCLIPビジュアルトークンを用いた横断的アテンションベースのトランスフォーマーを設計する。 ClipSitu XTFとして知られる当社のクロスアテンションベースのトランスフォーマーは、ImSituデータセットを使用してトップ1の精度でセマンティックロールラベリング(値)を14.1\%の大差で、既存の最先端技術よりも優れています。同様に、我々のClipSitu XTFは最先端のローカライゼーション性能を得る。コードを公開する予定です。

関連論文リスト

SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。 CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文参考訳（メタデータ） (2025-07-29T22:26:20Z)
CLIP-SCGI: Synthesized Caption-Guided Inversion for Person Re-Identification [9.996589403019675]
person re-identification (ReID) は Contrastive Language-Image Pre-Training (CLIP) のような大規模な事前訓練された視覚言語モデルの恩恵を受けている。本稿では、既存の画像キャプションモデルを利用して人物画像の擬似キャプションを生成する方法を提案する。 CLIP-SCGI(CLIP-SCGI)は、合成キャプションを利用して、差別的・堅牢な表現の学習をガイドするフレームワークである。
論文参考訳（メタデータ） (2024-10-12T06:24:33Z)
Effectively Leveraging CLIP for Generating Situational Summaries of Images and Videos [18.308072018844122]
状況認識とは、エージェントが利用可能な情報や感覚入力に基づいて、様々な状況や状況を特定し、理解する能力である。 ClipSituは、CLIPに基づく画像、動詞、ロール埋め込みを利用して、動詞に関連するすべての役割を満たす名詞を予測する。この結果から,ClipSituモデルでは,一般的なキャプションに比べて曖昧さを低減した構造化記述を作成できることがわかった。
論文参考訳（メタデータ） (2024-07-30T08:39:20Z)
pOps: Photo-Inspired Diffusion Operators [55.93078592427929]
pOpsは、CLIPイメージの埋め込みに直接セマンティック演算子をトレーニングするフレームワークである。 pOpsは、異なる意味を持つ様々なフォトインスパイアされた演算子を学ぶのに利用できることを示す。
論文参考訳（メタデータ） (2024-06-03T13:09:32Z)
Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。 ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文参考訳（メタデータ） (2024-02-23T06:11:50Z)
SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。 SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文参考訳（メタデータ） (2023-10-20T08:44:47Z)
Interpreting CLIP's Image Representation via Text-Based Decomposition [73.54377859089801]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文参考訳（メタデータ） (2023-10-09T17:59:04Z)
Prompting Visual-Language Models for Dynamic Facial Expression Recognition [14.783257517376041]
本稿ではDFER-CLIPと呼ばれる新しい視覚言語モデルを提案する。これはCLIPモデルに基づいており、幅内動的顔表情認識のために設計されている。 DFEW、FERV39k、MAFWベンチマークの現在の教師付きDFER法と比較すると、最先端の結果が得られる。
論文参考訳（メタデータ） (2023-08-25T13:52:05Z)
BOSS: Bottom-up Cross-modal Semantic Composition with Hybrid Counterfactual Training for Robust Content-based Image Retrieval [61.803481264081036]
CIR(Content-Based Image Retrieval)は,サンプル画像と補完テキストの合成を同時に解釈することで,対象画像の検索を目的とする。本稿では,新しいアンダーラインtextbfBottom-up crunderlinetextbfOss-modal underlinetextbfSemantic compounderlinetextbfSition (textbfBOSS) とHybrid Counterfactual Training frameworkを用いてこの問題に取り組む。
論文参考訳（メタデータ） (2022-07-09T07:14:44Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。