論文の概要: Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment
- arxiv url: http://arxiv.org/abs/2305.12218v1
- Date: Sat, 20 May 2023 15:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:47:38.453928
- Title: Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment
- Title(参考訳): アンタングル概念化とセット・ツー・セットアライメントを用いたテキストビデオ検索
- Authors: Peng Jin, Hao Li, Zesen Cheng, Jinfa Huang, Zhennan Wang, Li Yuan,
Chang Liu, Jie Chen
- Abstract要約: 本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。
絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。
セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
- 参考スコア(独自算出の注目度): 17.423361070781876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval is a challenging cross-modal task, which aims to align
visual entities with natural language descriptions. Current methods either fail
to leverage the local details or are computationally expensive. What's worse,
they fail to leverage the heterogeneous concepts in data. In this paper, we
propose the Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) to
simulate the conceptualizing and reasoning process of human beings. For
disentangled conceptualization, we divide the coarse feature into multiple
latent factors related to semantic concepts. For set-to-set alignment, where a
set of visual concepts correspond to a set of textual concepts, we propose an
adaptive pooling method to aggregate semantic concepts to address the partial
matching. In particular, since we encode concepts independently in only a few
dimensions, DiCoSA is superior at efficiency and granularity, ensuring
fine-grained interactions using a similar computational complexity as
coarse-grained alignment. Extensive experiments on five datasets, including
MSR-VTT, LSMDC, MSVD, ActivityNet, and DiDeMo, demonstrate that our method
outperforms the existing state-of-the-art methods.
- Abstract(参考訳): テキストビデオ検索は、視覚的エンティティと自然言語記述との整合を目的とした、難しいクロスモーダルタスクである。
現在の手法は局所的な詳細を活用できないか、計算コストが高いかのいずれかである。
さらに悪いことに、データにおける異質な概念を活用できないのです。
本稿では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。
絡み合った概念化のために、粗い特徴を意味概念に関連する複数の潜在要因に分割する。
視覚概念のセットがテキスト概念のセットに対応するセット・ツー・セットアラインメントでは,部分マッチングに対処するために意味概念を集約する適応プーリング手法を提案する。
特に、数次元で独立に概念を符号化するため、DiCoSAは効率と粒度が優れているため、粗い粒度のアライメントのような計算複雑性を用いて、きめ細かな相互作用を確保することができる。
MSR-VTT, LSMDC, MSVD, ActivityNet, DiDeMo を含む5つのデータセットに対する大規模な実験により,本手法が既存の最先端手法よりも優れていることが示された。
関連論文リスト
- Conceptual Codebook Learning for Vision-Language Models [27.68834532978939]
視覚言語モデル(VLM)の一般化能力向上のためのCodebook Learning(CoCoLe)を提案する。
視覚概念をキーとして,概念的プロンプトを値として,概念的コードブックを学習する。
この概念的コードブック学習法は,視覚的・言語的モダリティの高度化を実現することができる。
論文 参考訳(メタデータ) (2024-07-02T15:16:06Z) - Towards Compositionality in Concept Learning [20.960438848942445]
既存の教師なし概念抽出手法では、構成的でない概念が見つかる。
これらの特性に従う概念を見つけるための合成概念抽出(CCE)を提案する。
CCEは、ベースラインよりも構成的な概念表現を見つけ、下流の4つの分類タスクでより良い精度を得る。
論文 参考訳(メタデータ) (2024-06-26T17:59:30Z) - PaCE: Parsimonious Concept Engineering for Large Language Models [57.740055563035256]
Parsimonious Concept Engineering (PaCE)は、アライメントのための新しいアクティベーションエンジニアリングフレームワークである。
アクティベーション空間において,各原子が意味論的概念に対応する大規模概念辞書を構築する。
本研究では,PaCEが言語能力を維持しつつ,最先端のアライメント性能を実現することを示す。
論文 参考訳(メタデータ) (2024-06-06T17:59:10Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Non-confusing Generation of Customized Concepts in Diffusion Models [135.4385383284657]
テキスト誘導拡散モデル(TGDM)を用いた合成概念生成における概念間視覚混乱の共通課題に取り組む。
既存のカスタマイズされた生成方法は、第2ステージの微調整のみに焦点を当て、第1ステージを見下ろしている。
本稿では,CLIF(CLIF)と呼ばれる単純かつ効果的な画像言語微調整法を提案する。
論文 参考訳(メタデータ) (2024-05-11T05:01:53Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Modeling Temporal Concept Receptive Field Dynamically for Untrimmed
Video Analysis [105.06166692486674]
本稿では,概念に基づくイベント表現の時間的概念受容分野について考察する。
時間的動的畳み込み(TDC)を導入し、概念に基づくイベント分析をより柔軟にする。
異なる係数は、入力ビデオに応じて適切な時間的概念受容フィールドサイズを生成することができる。
論文 参考訳(メタデータ) (2021-11-23T04:59:48Z) - Entity Concept-enhanced Few-shot Relation Extraction [35.10974511223129]
長尾分布問題において,FSRE (Few-shot relation extract) が重要である。
ほとんどの既存のFSREアルゴリズムは、認識されたエンティティペアと共に文の情報に基づいて関係を正確に分類することができない。
本稿では,エンティティ固有の概念を導入し,関係予測の手がかりを提供する,エンティティ強化型FEw-shot Relation extract scheme(ConceptFERE)を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:36:49Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。