論文の概要: ContextRefine-CLIP for EPIC-KITCHENS-100 Multi-Instance Retrieval   Challenge 2025
        - arxiv url: http://arxiv.org/abs/2506.10550v1
- Date: Thu, 12 Jun 2025 10:17:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.682173
- Title: ContextRefine-CLIP for EPIC-KITCHENS-100 Multi-Instance Retrieval   Challenge 2025
- Title(参考訳): EPIC-KITCHENS-100マルチインスタンス検索チャレンジ2025におけるコンテキストRefine-CLIP
- Authors: Jing He, Yiqing Wang, Lingling Li, Kexin Zhang, Puhua Chen, 
- Abstract要約: 本稿では,視覚的マルチインスタンス検索タスクの効率的なモデルであるContextRefine-CLIPを提案する。
このアプローチは,マルチエンコーダAVIONに基づいて,モーダルなアテンションフローモジュールを導入する。
コードはhttps://github.com/delCayr/ContextRefine-Clip.comでオープンソース化される。
- 参考スコア(独自算出の注目度): 6.945344449218478
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract:   This report presents ContextRefine-CLIP (CR-CLIP), an efficient model for visual-textual multi-instance retrieval tasks. The approach is based on the dual-encoder AVION, on which we introduce a cross-modal attention flow module to achieve bidirectional dynamic interaction and refinement between visual and textual features to generate more context-aware joint representations. For soft-label relevance matrices provided in tasks such as EPIC-KITCHENS-100, CR-CLIP can work with Symmetric Multi-Similarity Loss to achieve more accurate semantic alignment and optimization using the refined features. Without using ensemble learning, the CR-CLIP model achieves 66.78mAP and 82.08nDCG on the EPIC-KITCHENS-100 public leaderboard, which significantly outperforms the baseline model and fully validates its effectiveness in cross-modal retrieval. The code will be released open-source on https://github.com/delCayr/ContextRefine-Clip 
- Abstract(参考訳): 本稿では,視覚的マルチインスタンス検索タスクの効率的なモデルであるContextRefine-CLIP(CR-CLIP)を提案する。
この手法は、双方向の動的相互作用と視覚的特徴とテキスト的特徴の洗練を実現し、よりコンテキスト対応な共同表現を生成するための、モーダルなアテンションフローモジュールであるデュアルエンコーダAVIONに基づいている。
EPIC-KITCHENS-100のようなタスクで提供されるソフトラベル関連行列に対して、CR-CLIPはシンメトリ・マルチ・シミュラリティ・ロス(Symmetric Multi-Similarity Loss)と連携して、より正確なセマンティックアライメントと最適化を実現する。
CR-CLIPモデルはアンサンブル学習を使わずにEPIC-KITCHENS-100公開リーダーボード上で66.78mAPと82.08nDCGを達成した。
コードはhttps://github.com/delCayr/ContextRefine-Clipでオープンソース化される。
 
      
        関連論文リスト
        - Distill CLIP (DCLIP): Enhancing Image-Text Retrieval via Cross-Modal   Transformer Distillation [4.063715077687089]
 Distill CLIP (DCLIP) はCLIPモデルの微調整版である。
オリジナルのモデルの強力なゼロショット分類機能を保ちながら、マルチモーダルな画像テキスト検索を強化する。
 論文  参考訳(メタデータ) (2025-05-25T07:08:07Z)
- PE-CLIP: A Parameter-Efficient Fine-Tuning of Vision Language Models for   Dynamic Facial Expression Recognition [7.966499123076283]
 CLIPのような視覚言語モデル(VLM)は、動的表情認識(DFER)のための有望なソリューションを提供する
パラメータ効率の良い微調整フレームワークであるPE-CLIPを提案する。
効率と精度のバランスをとることで、PE-CLIPはリソース効率のDFERの新しいベンチマークを設定できる。
 論文  参考訳(メタデータ) (2025-03-21T08:45:50Z)
- DiffCLIP: Differential Attention Meets CLIP [57.396578974401734]
 本稿では,CLIPアーキテクチャに差分アテンション機構を拡張する新しい視覚言語モデルであるDiffCLIPを提案する。
最小限の追加パラメータで、DiffCLIPは画像テキスト理解タスクにおいて優れたパフォーマンスを達成する。
 論文  参考訳(メタデータ) (2025-03-09T14:04:09Z)
- FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression   Recognition with AdaptERs [5.35588281968644]
 適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
 論文  参考訳(メタデータ) (2024-07-02T10:55:43Z)
- CART: A Generative Cross-Modal Retrieval Framework with Coarse-To-Fine   Semantic Modeling [53.97609687516371]
 クロスモーダル検索は、異なるモーダルデータの相互作用を通じて、クエリと意味的に関連するインスタンスを検索することを目的としている。
従来のソリューションでは、クエリと候補の間のスコアを明示的に計算するために、シングルトウワーまたはデュアルトウワーのフレームワークを使用している。
粗大なセマンティックモデリングに基づく生成的クロスモーダル検索フレームワーク(CART)を提案する。
 論文  参考訳(メタデータ) (2024-06-25T12:47:04Z)
- Leveraging Cross-Modal Neighbor Representation for Improved CLIP   Classification [54.96876797812238]
 画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
 論文  参考訳(メタデータ) (2024-04-27T02:04:36Z)
- Towards More Unified In-context Visual Understanding [74.55332581979292]
 マルチモーダル出力を有効にした視覚理解のための新しいICLフレームワークを提案する。
まず、テキストと視覚的プロンプトの両方を量子化し、統一された表現空間に埋め込む。
次にデコーダのみのスパーストランスアーキテクチャを用いて生成モデリングを行う。
 論文  参考訳(メタデータ) (2023-12-05T06:02:21Z)
- Composed Image Retrieval using Contrastive Learning and Task-oriented
  CLIP-based Features [32.138956674478116]
 参照画像と相対キャプションからなるクエリが与えられた場合、Composeed Image Retrievalの目的は、参照画像と視覚的に類似した画像を取得することである。
検討されたタスクに対処するために、OpenAI CLIPモデルの機能を使用します。
我々は、バイモーダル情報を統合することで、画像テキスト機能を組み合わせることを学ぶコンビネータネットワークを訓練する。
 論文  参考訳(メタデータ) (2023-08-22T15:03:16Z)
- MXM-CLR: A Unified Framework for Contrastive Learning of Multifold
  Cross-Modal Representations [14.355743915598554]
 マルチフォールド・クロスモーダル表現のコントラスト学習のための統合フレームワークMXM-CLRを提案する。
XM-CLRは、異なるモードからインスタンスの多重折りたたみ観測の関係を明示的にモデル化し、学習する。
その結果,マルチフォールドデータの表現性を向上させる上で,MXM-CLRの優位性が示された。
 論文  参考訳(メタデータ) (2023-03-20T02:51:53Z)
- Learning Visual Representation from Modality-Shared Contrastive
  Language-Image Pre-training [88.80694147730883]
 本稿では,多種多様なモダリティ共有コントラスト言語-画像事前学習(MS-CLIP)フレームワークについて検討する。
学習条件下では、視覚と言語信号のためのほとんど統一されたエンコーダが、より多くのパラメータを分離する他のすべてのバリエーションより優れていることが観察された。
我々のアプローチは、24の下流視覚タスクのコレクションに基づいて、線形探索においてバニラCLIPを1.6ポイント上回ります。
 論文  参考訳(メタデータ) (2022-07-26T05:19:16Z)
- Entity-Graph Enhanced Cross-Modal Pretraining for Instance-level Product
  Retrieval [152.3504607706575]
 本研究の目的は, 細粒度製品カテゴリを対象とした, 弱制御型マルチモーダル・インスタンスレベルの製品検索である。
まず、Product1Mデータセットをコントリビュートし、2つの実際のインスタンスレベルの検索タスクを定義します。
我々は、マルチモーダルデータから重要な概念情報を組み込むことができるより効果的なクロスモーダルモデルを訓練するために活用する。
 論文  参考訳(メタデータ) (2022-06-17T15:40:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
       
     
      指定された論文の情報です。
      本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。