論文の概要: Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment
- arxiv url: http://arxiv.org/abs/2305.12218v1
- Date: Sat, 20 May 2023 15:48:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:47:38.453928
- Title: Text-Video Retrieval with Disentangled Conceptualization and Set-to-Set
Alignment
- Title(参考訳): アンタングル概念化とセット・ツー・セットアライメントを用いたテキストビデオ検索
- Authors: Peng Jin, Hao Li, Zesen Cheng, Jinfa Huang, Zhennan Wang, Li Yuan,
Chang Liu, Jie Chen
- Abstract要約: 本研究では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。
絡み合った概念化のために、粗い特徴を意味論的概念に関連する複数の潜在要因に分割する。
セット・ツー・セットのアライメントにおいて、視覚概念の集合がテキスト概念の集合に対応する場合、セマンティック概念を集約する適応プーリング法を提案する。
- 参考スコア(独自算出の注目度): 17.423361070781876
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-video retrieval is a challenging cross-modal task, which aims to align
visual entities with natural language descriptions. Current methods either fail
to leverage the local details or are computationally expensive. What's worse,
they fail to leverage the heterogeneous concepts in data. In this paper, we
propose the Disentangled Conceptualization and Set-to-set Alignment (DiCoSA) to
simulate the conceptualizing and reasoning process of human beings. For
disentangled conceptualization, we divide the coarse feature into multiple
latent factors related to semantic concepts. For set-to-set alignment, where a
set of visual concepts correspond to a set of textual concepts, we propose an
adaptive pooling method to aggregate semantic concepts to address the partial
matching. In particular, since we encode concepts independently in only a few
dimensions, DiCoSA is superior at efficiency and granularity, ensuring
fine-grained interactions using a similar computational complexity as
coarse-grained alignment. Extensive experiments on five datasets, including
MSR-VTT, LSMDC, MSVD, ActivityNet, and DiDeMo, demonstrate that our method
outperforms the existing state-of-the-art methods.
- Abstract(参考訳): テキストビデオ検索は、視覚的エンティティと自然言語記述との整合を目的とした、難しいクロスモーダルタスクである。
現在の手法は局所的な詳細を活用できないか、計算コストが高いかのいずれかである。
さらに悪いことに、データにおける異質な概念を活用できないのです。
本稿では,人間の概念化と推論の過程をシミュレートするために,Distangled Conceptualization and Set-to-set Alignment (DiCoSA)を提案する。
絡み合った概念化のために、粗い特徴を意味概念に関連する複数の潜在要因に分割する。
視覚概念のセットがテキスト概念のセットに対応するセット・ツー・セットアラインメントでは,部分マッチングに対処するために意味概念を集約する適応プーリング手法を提案する。
特に、数次元で独立に概念を符号化するため、DiCoSAは効率と粒度が優れているため、粗い粒度のアライメントのような計算複雑性を用いて、きめ細かな相互作用を確保することができる。
MSR-VTT, LSMDC, MSVD, ActivityNet, DiDeMo を含む5つのデータセットに対する大規模な実験により,本手法が既存の最先端手法よりも優れていることが示された。
関連論文リスト
- Hierarchical Concept Discovery Models: A Concept Pyramid Scheme [11.138948381367133]
この研究は、アンテホック解釈可能性、特に概念ボトルネックモデル(CBM)をターゲットにしている。
私たちのゴールは、人間の理解可能な概念に関して、高度に解釈可能な意思決定プロセスを認めるフレームワークを設計することです。
この枠組みの中では、概念情報は全体像と一般的な非構造化概念との類似性にのみ依存しない。
論文 参考訳(メタデータ) (2023-10-03T14:57:31Z) - Expectation-Maximization Contrastive Learning for Compact
Video-and-Language Representations [54.62547989034184]
我々は,コンパクトなビデオ・言語表現を学習するために,予測最大化コントラスト学習(EMCL)を提案する。
具体的には、期待最大化アルゴリズムを用いて、潜在空間のコンパクトな基底集合を求める。
3つのベンチマークテキスト・ビデオ検索データセットの実験により、EMCLはより識別力のあるビデオ・言語表現を学習できることが証明された。
論文 参考訳(メタデータ) (2022-11-21T13:12:44Z) - ACSeg: Adaptive Conceptualization for Unsupervised Semantic Segmentation [17.019848796027485]
自己教師付き視覚事前学習モデルでは,画素レベルの意味的関係を表現することに大きな期待が持たれている。
本研究では,自己学習モデルにおける画素レベルのセマンティックアグリゲーションを画像エンコードや設計概念として検討する。
本稿では,これらのプロトタイプを各画像に対する情報的概念に適応的にマッピングするアダプティブ・コンセプト・ジェネレータ(ACG)を提案する。
論文 参考訳(メタデータ) (2022-10-12T06:16:34Z) - DetCLIP: Dictionary-Enriched Visual-Concept Paralleled Pre-training for
Open-world Detection [118.36746273425354]
本稿では,デザインされた概念辞書から知識の豊かさを生かして,オープンワールド検出のための並列視覚概念事前学習手法を提案する。
概念をそれらの記述で豊かにすることにより、オープンドメイン学習を促進するために、さまざまな概念間の関係を明確に構築する。
提案フレームワークは、例えばLVISデータセット上で、強力なゼロショット検出性能を示し、私たちのDetCLIP-TはGLIP-Tを9.9%向上させ、レアカテゴリで13.5%改善した。
論文 参考訳(メタデータ) (2022-09-20T02:01:01Z) - Automatic Concept Extraction for Concept Bottleneck-based Video
Classification [58.11884357803544]
本稿では,概念に基づくビデオ分類に必要かつ十分な概念抽象セットを厳格に構成する概念発見抽出モジュールを提案する。
提案手法は,自然言語における概念概念の抽象概念を応用し,複雑なタスクに概念ボトルネック法を一般化する。
論文 参考訳(メタデータ) (2022-06-21T06:22:35Z) - Discovering Concepts in Learned Representations using Statistical
Inference and Interactive Visualization [0.76146285961466]
概念発見は、深層学習の専門家とモデルエンドユーザーの間のギャップを埋めるために重要である。
現在のアプローチには、手作りの概念データセットと、それを潜在空間方向に変換することが含まれる。
本研究では,複数の仮説テストに基づく意味ある概念のユーザ発見と,インタラクティブな可視化に関する2つのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-09T22:29:48Z) - Modeling Temporal Concept Receptive Field Dynamically for Untrimmed
Video Analysis [105.06166692486674]
本稿では,概念に基づくイベント表現の時間的概念受容分野について考察する。
時間的動的畳み込み(TDC)を導入し、概念に基づくイベント分析をより柔軟にする。
異なる係数は、入力ビデオに応じて適切な時間的概念受容フィールドサイズを生成することができる。
論文 参考訳(メタデータ) (2021-11-23T04:59:48Z) - Entity Concept-enhanced Few-shot Relation Extraction [35.10974511223129]
長尾分布問題において,FSRE (Few-shot relation extract) が重要である。
ほとんどの既存のFSREアルゴリズムは、認識されたエンティティペアと共に文の情報に基づいて関係を正確に分類することができない。
本稿では,エンティティ固有の概念を導入し,関係予測の手がかりを提供する,エンティティ強化型FEw-shot Relation extract scheme(ConceptFERE)を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:36:49Z) - SOSD-Net: Joint Semantic Object Segmentation and Depth Estimation from
Monocular images [94.36401543589523]
これら2つのタスクの幾何学的関係を利用するための意味的対象性の概念を紹介します。
次に, 対象性仮定に基づくセマンティックオブジェクト・深さ推定ネットワーク(SOSD-Net)を提案する。
私たちの知識を最大限に活用するために、SOSD-Netは同時単眼深度推定とセマンティックセグメンテーションのためのジオメトリ制約を利用する最初のネットワークです。
論文 参考訳(メタデータ) (2021-01-19T02:41:03Z) - Concept Learners for Few-Shot Learning [76.08585517480807]
本研究では,人間の解釈可能な概念次元に沿って学習することで,一般化能力を向上させるメタ学習手法であるCOMETを提案する。
我々は,細粒度画像分類,文書分類,セルタイプアノテーションなど,さまざまな領域からの少数ショットタスクによるモデルの評価を行った。
論文 参考訳(メタデータ) (2020-07-14T22:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。