Fugu-MT 論文翻訳(概要): Test-time Contrastive Concepts for Open-world Semantic Segmentation

論文の概要: Test-time Contrastive Concepts for Open-world Semantic Segmentation

arxiv url: http://arxiv.org/abs/2407.05061v2
Date: Fri, 24 Jan 2025 21:51:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-28 21:57:03.271914
Title: Test-time Contrastive Concepts for Open-world Semantic Segmentation
Title（参考訳）: オープンワールドセマンティックセグメンテーションのためのテスト時間コントラストの概念
Authors: Monika Wysoczańska, Antonin Vobecky, Amaia Cardiel, Tomasz Trzciński, Renaud Marlet, Andrei Bursuc, Oriane Siméoni,
Abstract要約: 最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
参考スコア（独自算出の注目度）: 14.899741072838994
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent CLIP-like Vision-Language Models (VLMs), pre-trained on large amounts of image-text pairs to align both modalities with a simple contrastive objective, have paved the way to open-vocabulary semantic segmentation. Given an arbitrary set of textual queries, image pixels are assigned the closest query in feature space. However, this works well when a user exhaustively lists all possible visual concepts in an image, which contrast against each other for the assignment. This corresponds to the current evaluation setup in the literature which relies on having access to a list of in-domain relevant concepts, typically classes of a benchmark dataset. Here, we consider the more challenging (and realistic) scenario of segmenting a single concept, given a textual prompt and nothing else. To achieve good results, besides contrasting with the generic $\textit{background}$ text, we propose two different approaches to automatically generate, at test time, textual contrastive concepts that are query-specific. We do so by leveraging the distribution of text in the VLM's training set or crafted LLM prompts. We also propose a metric designed to evaluate this scenario and show the relevance of our approach to commonly used datasets.
Abstract（参考訳）: 最近のCLIP-like Vision-Language Models (VLMs) は、両モードを単純な対照的な目的と整合させるために、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセマンティクスへの道を開いた。任意のテキストクエリセットが与えられた場合、画像ピクセルは特徴空間内で最も近いクエリに割り当てられる。しかし、画像内のすべての可能な視覚概念を網羅的にリストアップすると、これはうまく機能する。これは、一般的にベンチマークデータセットのクラスである、ドメイン内の関連する概念のリストへのアクセスに依存する文学における現在の評価設定に対応する。ここでは、テキストのプロンプトとその他何も考慮し、単一の概念をセグメント化するより難しい(そして現実的な)シナリオを考えます。一般的な$\textit{background}$ textと対照的に、テスト時にクエリ固有のテキストコントラストの概念を自動的に生成する2つの異なるアプローチを提案する。 VLM のトレーニングセットや工芸 LLM プロンプトにおけるテキストの分布を活用することで実現している。また、このシナリオを評価し、一般的に使用されるデータセットに対するアプローチの関連性を示す指標も提案する。

関連論文リスト

VISTA-Bench: Do Vision-Language Models Really Understand Visualized Text as Well as Pure Text? [51.02924254085878]
VLM(Vision-Language Models)は、テキスト入力と視覚入力のクロスモーダル理解において、優れたパフォーマンスを実現している。 VISTA-Benchは、マルチモーダル認識、推論、および非モーダル理解領域のベンチマークである。
論文参考訳（メタデータ） (2026-02-04T17:48:55Z)
ScenarioCLIP: Pretrained Transferable Visual Language Models and Action-Genome Dataset for Natural Scene Analysis [4.611741386167832]
PyramidCLIPは、グローバルな視覚的特徴と局所的な視覚的特徴の整合を目標としているが、オブジェクト間の関係の明示的なモデリングはいまだに欠けている。我々は、既存の屋内および屋外の多様なシナリオデータセットから画像とテキストのペアを拡張することで、新しいデータセットを生成する。いくつかのシナリオベースのタスクの総合的なベンチマークを確立し、それを多くのベースライン手法と比較した。
論文参考訳（メタデータ） (2025-11-25T12:59:31Z)
Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文参考訳（メタデータ） (2025-08-24T15:45:22Z)
Latent Expression Generation for Referring Image Segmentation and Grounding [13.611995923070426]
既存のほとんどのメソッドは単一のテキスト入力に依存しており、視覚領域で利用可能なリッチな情報のごく一部しか取得できない。このリッチ・ビジュアル・ディテールと粗雑なテキスト・キューのミスマッチは、類似したオブジェクトの誤識別につながる可能性がある。単一のテキスト入力から生成された複数の潜在表現を利用する新しい視覚的グラウンドディングフレームワークを提案する。
論文参考訳（メタデータ） (2025-08-07T07:57:27Z)
ConText: Driving In-context Learning for Text Removal and Segmentation [59.6299939669307]
本稿では,視覚的インコンテキスト学習パラダイムを光学的文字認識タスクに適用する最初の研究について述べる。画像除去・分離方式のタスクチェイン・コンポジトリを提案する。また、連鎖したプロンプトパターンを潜在クエリ表現に統合するコンテキスト認識アグリゲーションも導入する。
論文参考訳（メタデータ） (2025-06-04T10:06:32Z)
Descriminative-Generative Custom Tokens for Vision-Language Models [101.40245125955306]
本稿では,視覚言語モデル(VLM)における新しい概念を表現するためのカスタムトークンの学習の可能性について検討する。本研究の目的は,識別的タスクと生成的タスクの両方に有効なトークンを学習し,単語をうまく合成して新しい入力クエリを構築することである。
論文参考訳（メタデータ） (2025-02-17T18:13:42Z)
InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。 InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文参考訳（メタデータ） (2024-10-15T10:20:31Z)
Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文参考訳（メタデータ） (2024-06-05T04:08:41Z)
VLLMs Provide Better Context for Emotion Understanding Through Common Sense Reasoning [66.23296689828152]
我々は、視覚・言語モデルの機能を活用し、文脈内感情分類を強化する。第1段階では、VLLMが対象者の明らかな感情の自然言語で記述を生成できるように促すことを提案する。第2段階では、記述を文脈情報として使用し、画像入力とともに、トランスフォーマーベースのアーキテクチャのトレーニングに使用する。
論文参考訳（メタデータ） (2024-04-10T15:09:15Z)
LLMs Meet VLMs: Boost Open Vocabulary Object Detection with Fine-grained Descriptors [58.75140338866403]
DVDetはディスクリプタ強化オープン語彙検出器である。局所埋め込みをイメージライクな表現に変換することで、一般的なオープンな語彙検出トレーニングに直接統合することができる。複数の大規模ベンチマークに対する大規模な実験により、DVDetは最先端技術よりも大きなマージンで一貫して優れていたことが示されている。
論文参考訳（メタデータ） (2024-02-07T07:26:49Z)
Leveraging Open-Vocabulary Diffusion to Camouflaged Instance Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文参考訳（メタデータ） (2023-12-29T07:59:07Z)
Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文参考訳（メタデータ） (2023-07-21T13:06:02Z)
TextFormer: A Query-based End-to-End Text Spotter with Mixed Supervision [61.186488081379]
Transformerアーキテクチャを用いた問合せベースのエンドツーエンドテキストスポッターであるTextFormerを提案する。 TextFormerは、画像エンコーダとテキストデコーダの上に構築され、マルチタスクモデリングのための共同セマンティック理解を学ぶ。分類、セグメンテーション、認識のブランチの相互訓練と最適化を可能にし、より深い特徴共有をもたらす。
論文参考訳（メタデータ） (2023-06-06T03:37:41Z)
Text-based Person Search without Parallel Image-Text Data [52.63433741872629]
テキストベースの人物探索(TBPS)は,対象者の画像を与えられた自然言語記述に基づいて大きな画像ギャラリーから検索することを目的としている。既存の手法は、並列画像テキストペアによるトレーニングモデルによって支配されており、収集には非常にコストがかかる。本稿では,並列画像テキストデータなしでTBPSを探索する試みについて述べる。
論文参考訳（メタデータ） (2023-05-22T12:13:08Z)
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文参考訳（メタデータ） (2023-05-12T08:19:39Z)
Learning to Generate Text-grounded Mask for Open-world Semantic Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-01T18:59:03Z)
Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文参考訳（メタデータ） (2022-08-04T07:51:48Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching [10.992151305603267]
本稿では,検索項目の意味的関連度を評価するための2つの指標を提案する。画像キャプションの指標であるCIDErを用いて,標準的な三重項損失に最適化されるセマンティック適応マージン(SAM)を定義する。
論文参考訳（メタデータ） (2021-10-06T09:54:28Z)
Text-based Person Search in Full Images via Semantic-Driven Proposal Generation [42.25611020956918]
本稿では,歩行者検出,識別,視覚意味的特徴埋め込みタスクを協調的に最適化するエンドツーエンド学習フレームワークを提案する。クエリテキストを最大限に活用するために、セマンティック機能を活用して、リージョン提案ネットワークにテキスト記述された提案にもっと注意を払うように指示する。
論文参考訳（メタデータ） (2021-09-27T11:42:40Z)
MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding [40.24656027709833]
生のテキストクエリで条件付き画像中のオブジェクトを検出するエンドツーエンド変調検出器 MDETR を提案する。モデルの初期段階で2つのモダリティを融合することにより,テキストと画像上で共同で推論を行うトランスフォーマティブアーキテクチャを用いる。 GQAおよびCLEVR上での競合性能を達成することで,視覚的質問応答を容易に拡張することができる。
論文参考訳（メタデータ） (2021-04-26T17:55:33Z)
Scene Text Retrieval via Joint Text Detection and Similarity Learning [68.24531728554892]
シーンテキスト検索は、与えられたクエリテキストと同じまたは類似している画像ギャラリーからすべてのテキストインスタンスをローカライズし、検索することを目的としています。自然画像からクエリテキストと各テキストインスタンスのクロスモーダルな類似性を直接学習することでこの問題に対処します。このように、検出されたテキストインスタンスを学習された類似度でランク付けすることで、シーンテキスト検索を簡単に実行できます。
論文参考訳（メタデータ） (2021-04-04T07:18:38Z)
Evaluating Multimodal Representations on Visual Semantic Textual Similarity [22.835699807110018]
本稿では,新しいタスクであるVisual Semantic Textual similarity (vSTS)を提案する。単純なマルチモーダル表現を用いた実験により、画像表現の追加はテキストのみの表現よりも推論が優れていることが示された。我々の研究は、視覚情報のテキスト推論への貢献が成功したことを初めて示しており、より複雑なマルチモーダル表現オプションの余地は十分にある。
論文参考訳（メタデータ） (2020-04-04T09:03:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。