Fugu-MT 論文翻訳(概要): Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits

論文の概要: Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits

arxiv url: http://arxiv.org/abs/2409.01690v1
Date: Tue, 3 Sep 2024 08:13:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-06 02:30:20.806445
Title: Taming CLIP for Fine-grained and Structured Visual Understanding of Museum Exhibits
Title（参考訳）: 博物館展示物のきめ細粒度・構造的視覚的理解のためのCLIP
Authors: Ada-Astrid Balauca, Danda Pani Paudel, Kristina Toutanova, Luc Van Gool,
Abstract要約: 博物館展示の微細で構造化された理解にCLIPを適用することを目的としている。私たちのデータセットは、パブリックドメインで最初のものです。提案手法(MUZE)は,変換器を用いた解析ネットワーク(parseNet)を用いて,CLIPのイメージ埋め込みを表構造にマッピングする方法を学習する。
参考スコア（独自算出の注目度）: 59.66134971408414
License: http://creativecommons.org/licenses/by/4.0/
Abstract: CLIP is a powerful and widely used tool for understanding images in the context of natural language descriptions to perform nuanced tasks. However, it does not offer application-specific fine-grained and structured understanding, due to its generic nature. In this work, we aim to adapt CLIP for fine-grained and structured -- in the form of tabular data -- visual understanding of museum exhibits. To facilitate such understanding we (a) collect, curate, and benchmark a dataset of 200K+ image-table pairs, and (b) develop a method that allows predicting tabular outputs for input images. Our dataset is the first of its kind in the public domain. At the same time, the proposed method is novel in leveraging CLIP's powerful representations for fine-grained and tabular understanding. The proposed method (MUZE) learns to map CLIP's image embeddings to the tabular structure by means of a proposed transformer-based parsing network (parseNet). More specifically, parseNet enables prediction of missing attribute values while integrating context from known attribute-value pairs for an input image. We show that this leads to significant improvement in accuracy. Through exhaustive experiments, we show the effectiveness of the proposed method on fine-grained and structured understanding of museum exhibits, by achieving encouraging results in a newly established benchmark. Our dataset and source-code can be found at: https://github.com/insait-institute/MUZE
Abstract（参考訳）: CLIPは、自然言語記述のコンテキストでイメージを理解し、ニュアンスされたタスクを実行するために、強力で広く使用されるツールである。しかし、一般的な性質のため、アプリケーション固有の細粒度で構造化された理解を提供していない。本研究は,博物館展示の視覚的理解という表形式で,きめ細かな構造化されたCLIPに適応することを目的としている。このような理解を容易にするには (a)200K以上の画像テーブル対のデータセットを収集し、キュレートし、ベンチマークする。 (b)入力画像の表出力を予測する手法を開発する。私たちのデータセットは、パブリックドメインで最初のものです。同時に,CLIPの強力な表現を微粒化・表層的理解に活用する手法が提案されている。提案手法(MUZE)は,CLIPのイメージ埋め込みを変換器を用いた解析ネットワーク(parseNet)を用いて表構造にマッピングする方法を学習する。より具体的には、parseNetは、入力画像の既知の属性値ペアからコンテキストを統合しながら、属性値の欠落を予測できる。これにより精度が大幅に向上することを示す。提案手法が博物館展示のきめ細やかで構造化された理解に有効であることを示す。私たちのデータセットとソースコードは、https://github.com/insait-institute/MUZEで確認できます。

関連論文リスト

ELIP: Enhanced Visual-Language Foundation Models for Image Retrieval [83.01358520910533]
本稿では,大規模な事前学習型視覚キュレーションモデルの性能向上を目的とした新しいフレームワークを提案する。 ELIP(Enhanced Language- Image Pre-training)と呼ばれるこのアプローチでは、単純なマッピングネットワークを通じてテキストクエリを使用して、視覚的なプロンプトのセットを予測する。 ELIPは一般的なCLIP、SigLIP、BLIP-2ネットワークに容易に適用できる。
論文参考訳（メタデータ） (2025-02-21T18:59:57Z)
ComAlign: Compositional Alignment in Vision-Language Models [2.3250871476216814]
コンポジションアライメント(ComAlign)を導入し、テキストと画像コンポーネントのより正確な対応を見出す。本手法は, テキストのモダリティから抽出した構成構造も画像のモダリティに残さなければならないことを強調する。私たちは、小さなデータセットを使用して、既存のビジュアルおよび言語エンコーダの上に横たわる軽量ネットワークをトレーニングします。
論文参考訳（メタデータ） (2024-09-12T16:46:41Z)
Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文参考訳（メタデータ） (2023-11-19T06:00:39Z)
Self-supervised Learning of Contextualized Local Visual Embeddings [0.0]
Contextualized Local Visual Embeddings (CLoVE) は、密集した予測タスクに適した表現を学習する自己教師型畳み込み方式である。 CLoVEの事前訓練された表現を複数のデータセットでベンチマークする。 CLOVEは、CNNベースのアーキテクチャに対して、下流の4つの密集した予測タスクで最先端のパフォーマンスに達する。
論文参考訳（メタデータ） (2023-10-01T00:13:06Z)
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文参考訳（メタデータ） (2023-05-12T08:19:39Z)
Joint Language Semantic and Structure Embedding for Knowledge Graph Completion [66.15933600765835]
本稿では,知識三重項の自然言語記述と構造情報とを共同で組み込むことを提案する。本手法は,学習済み言語モデルを微調整することで,完了作業のための知識グラフを埋め込む。各種知識グラフベンチマーク実験により,本手法の最先端性能を実証した。
論文参考訳（メタデータ） (2022-09-19T02:41:02Z)
DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文参考訳（メタデータ） (2021-12-02T18:59:32Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Exploiting Structured Knowledge in Text via Graph-Guided Representation Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文参考訳（メタデータ） (2020-04-29T14:22:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。