論文の概要: ScenarioCLIP: Pretrained Transferable Visual Language Models and Action-Genome Dataset for Natural Scene Analysis
- arxiv url: http://arxiv.org/abs/2511.20274v1
- Date: Tue, 25 Nov 2025 12:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.465394
- Title: ScenarioCLIP: Pretrained Transferable Visual Language Models and Action-Genome Dataset for Natural Scene Analysis
- Title(参考訳): ScenarioCLIP:自然場面分析のための事前訓練された伝達可能なビジュアル言語モデルとアクションゲノムデータセット
- Authors: Advik Sinha, Saurabh Atreya, Aashutosh A, Sk Aziz Ali, Abhijit Das,
- Abstract要約: PyramidCLIPは、グローバルな視覚的特徴と局所的な視覚的特徴の整合を目標としているが、オブジェクト間の関係の明示的なモデリングはいまだに欠けている。
我々は、既存の屋内および屋外の多様なシナリオデータセットから画像とテキストのペアを拡張することで、新しいデータセットを生成する。
いくつかのシナリオベースのタスクの総合的なベンチマークを確立し、それを多くのベースライン手法と比較した。
- 参考スコア(独自算出の注目度): 4.611741386167832
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Until recently, the general corpus of CLIP-type fundamental models has widely explored either the retrieval of short descriptions or the classification of objects in the scene as SINGLE-object image classification task. The same holds for retrieving the image embedding (image retrieval task) given a text prompt. However, real-world scene images exhibit rich compositional structure involving multiple objects and actions. The latest methods in the CLIP-based literature improve class-level discrimination by mining harder negative image-text pairs and by refining permanent text prompts, often using LLMs. However, these improvements remain confined to predefined class lists and do not explicitly model relational or compositional structure. PyramidCLIP partially addresses this gap by aligning global and local visual features, yet it still lacks explicit modeling of inter-object relations. Hence, to further leverage this aspect for scene analysis, the proposed ScenarioCLIP model accepts input texts, grounded relations, and input images, along with focused regions highlighting relations. The proposed model is pretrained on curated scenario data, and finetuned for specialized downstream tasks, such as cross-modal retrieval and fine-grained visual understanding tasks. To address the lack of domain-specific datasets, we generate a novel dataset by extending image-text pairs from existing diverse indoor and outdoor scenario datasets that are publicly available. We used a pipeline of existing language models to ground action, object, and relations, filled by manual and automatic curation. We established a comprehensive benchmark for several scenario-based tasks and compared it with many baseline methods. ScenarioCLIP demonstrates robust zero-shot and finetune performance on various domain-specific tasks. Our code and dataset are available at https://github.com/scenario-clip/ScenarioCLIP
- Abstract(参考訳): 近年まで、CLIP型基本モデルの一般的なコーパスは、短い記述の検索やシーン内のオブジェクトの分類を、SINGLEオブジェクト画像分類タスクとして広く研究してきた。
テキストプロンプトが与えられたイメージ埋め込み(画像検索タスク)を検索する時も同じです。
しかし、実世界のシーンイメージは、複数のオブジェクトやアクションを含むリッチな構成構造を示す。
CLIPベースの文献の最新の手法は、強い負のイメージテキストペアをマイニングし、しばしばLLMを使用して永続的なテキストプロンプトを精製することで、クラスレベルの識別を改善する。
しかしながら、これらの改善は定義済みのクラスリストに限定されており、関係性や構成構造を明示的にモデル化していない。
PyramidCLIPは、グローバルな視覚的特徴と局所的な視覚的特徴を整合させることによって、このギャップに部分的に対処するが、オブジェクト間の関係の明示的なモデリングはいまだに欠けている。
したがって、シーン解析にこの側面をさらに活用するために、提案したScenarioCLIPモデルは、関係を強調する集中領域とともに、入力テキスト、接地関係、および入力画像を受け入れる。
提案手法は計算済みのシナリオデータに基づいて事前訓練され,クロスモーダル検索や細粒度視覚理解タスクなどの下流タスクに精細に調整される。
ドメイン固有のデータセットの欠如に対処するため、既存の屋内および屋外のさまざまなシナリオデータセットから画像テキストペアを拡張して、公開可能な新しいデータセットを生成する。
既存の言語モデルのパイプラインを使用して、手動と自動キュレーションで満たされたアクション、オブジェクト、関係をグラウンドにしました。
いくつかのシナリオベースのタスクの総合的なベンチマークを確立し、それを多くのベースライン手法と比較した。
ScenarioCLIPは、さまざまなドメイン固有のタスクにおいて、堅牢なゼロショットとファインチューンのパフォーマンスを示す。
私たちのコードとデータセットはhttps://github.com/scenario-clip/ScenarioCLIPで公開されています。
関連論文リスト
- CLIP Under the Microscope: A Fine-Grained Analysis of Multi-Object Representation [3.1667055223489786]
対照的な言語-画像 事前学習モデルはゼロショット分類では優れているが、複雑な多目的シナリオでは課題に直面している。
この研究は、特別なデータセットであるComCOを使用して、これらのコンテキストにおけるCLIPの制限を包括的に分析する。
テキストエンコーダは初期オブジェクトを優先し,画像エンコーダはより大きなオブジェクトを優先する。
論文 参考訳(メタデータ) (2025-02-27T07:34:42Z) - Teaching VLMs to Localize Specific Objects from In-context Examples [56.797110842152]
現在、視覚言語モデル(VLM)には、状況を考慮した特定の物体をシーン内でローカライズする学習という、基本的な認知能力がないことが分かっています。
この研究は、VLMのパーソナライズされた数ショットのローカライゼーションを探索し、ベンチマークした初めてのものである。
論文 参考訳(メタデータ) (2024-11-20T13:34:22Z) - Scene Graph Generation with Role-Playing Large Language Models [50.252588437973245]
オープン語彙シーングラフ生成(OVSGG)に対する現在のアプローチは、CLIPのような視覚言語モデルを使用している。
シーン固有の記述に基づくOVSGGフレームワークであるSDSGGを提案する。
対象と対象の複雑な相互作用を捉えるために,相互視覚アダプタと呼ばれる軽量モジュールを提案する。
論文 参考訳(メタデータ) (2024-10-20T11:40:31Z) - Test-time Contrastive Concepts for Open-world Semantic Segmentation with Vision-Language Models [14.899741072838994]
最近のCLIP-like Vision-Language Models (VLM)は、大量の画像テキストペアで事前訓練され、オープン語彙セマンティックセマンティックセグメンテーションへの道を開いた。
本稿では,クエリ固有のテキストコントラストの概念を自動生成する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-06T12:18:43Z) - Placing Objects in Context via Inpainting for Out-of-distribution Segmentation [59.00092709848619]
コンテキスト内のオブジェクトの配置(POC)は、イメージにオブジェクトを現実的に追加するためのパイプラインである。
POCは任意の数のオブジェクトで任意のデータセットを拡張するために使用することができる。
本稿では,POC 生成データに基づく様々な異常セグメンテーションデータセットを提示し,最近の最先端の異常チューニング手法の性能向上を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:32:41Z) - Open-Vocabulary Camouflaged Object Segmentation [66.94945066779988]
OVCOS(Open-vocabulary camouflaged Object segmentation)を導入した。
我々は11,483個の手選択画像とそれに対応するオブジェクトクラスを含む大規模複合シーンデータセット(textbfOVCamo)を構築した。
クラスセマンティック知識の指導とエッジ情報と深度情報からの視覚構造的手がかりの補足を統合することにより、提案手法は効率よくカモフラージュされたオブジェクトを捕捉できる。
論文 参考訳(メタデータ) (2023-11-19T06:00:39Z) - Diverse Image Captioning with Context-Object Split Latent Spaces [22.95979735707003]
本稿では,画像やテキストのコンテキスト記述における多様性をモデル化するために,コンテキストオブジェクト分割と呼ばれる潜在空間の新たな因子分解を導入する。
本フレームワークは,文脈に基づく疑似監視による多種多様なキャプションを可能にするだけでなく,新たなオブジェクトを持つ画像に拡張し,トレーニングデータにペアのキャプションを含まないようにした。
論文 参考訳(メタデータ) (2020-11-02T13:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。