論文の概要: (Un)likelihood Training for Interpretable Embedding
- arxiv url: http://arxiv.org/abs/2207.00282v2
- Date: Wed, 17 May 2023 03:07:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 21:05:47.329731
- Title: (Un)likelihood Training for Interpretable Embedding
- Title(参考訳): 解釈可能な埋め込みのための(un)likelihood training
- Authors: Jiaxin Wu, Chong-Wah Ngo, Wing-Kwong Chan and Zhijian Hou
- Abstract要約: テキストと視覚データのセマンティックなギャップを埋める上で,クロスモーダル表現学習は新たな標準となっている。
埋め込みの背後にあるセマンティクスをアンロールする2つの新しい訓練目標,可能性と相違関数を提案する。
双方のトレーニング目標により,解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが,アドホックなビデオ検索のために提案されている。
- 参考スコア(独自算出の注目度): 31.28134129186869
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-modal representation learning has become a new normal for bridging the
semantic gap between text and visual data. Learning modality agnostic
representations in a continuous latent space, however, is often treated as a
black-box data-driven training process. It is well-known that the effectiveness
of representation learning depends heavily on the quality and scale of training
data. For video representation learning, having a complete set of labels that
annotate the full spectrum of video content for training is highly difficult if
not impossible. These issues, black-box training and dataset bias, make
representation learning practically challenging to be deployed for video
understanding due to unexplainable and unpredictable results. In this paper, we
propose two novel training objectives, likelihood and unlikelihood functions,
to unroll semantics behind embeddings while addressing the label sparsity
problem in training. The likelihood training aims to interpret semantics of
embeddings beyond training labels, while the unlikelihood training leverages
prior knowledge for regularization to ensure semantically coherent
interpretation. With both training objectives, a new encoder-decoder network,
which learns interpretable cross-modal representation, is proposed for ad-hoc
video search. Extensive experiments on TRECVid and MSR-VTT datasets show the
proposed network outperforms several state-of-the-art retrieval models with a
statistically significant performance margin.
- Abstract(参考訳): クロスモーダル表現学習は,テキストと視覚データ間の意味的ギャップを埋めるための新しい標準となった。
しかしながら、連続的な潜在空間におけるモダリティ非依存表現の学習は、しばしばブラックボックスのデータ駆動トレーニングプロセスとして扱われる。
表現学習の有効性は,トレーニングデータの質や規模に大きく依存していることが知られている。
映像表現学習では,学習のための映像コンテンツの完全なスペクトルを注釈するラベルの完全なセットを持つことは,不可能ではないにせよ極めて困難である。
これらの問題、ブラックボックストレーニングとデータセットバイアスは、説明不能で予測不可能な結果のため、ビデオ理解のために表現学習を実際に展開することが困難である。
本稿では,ラベル空間の問題に対処しながら,埋め込みの背後にある意味を解き放つための2つの新しい訓練目標,可能性と相違点を提案する。
機会訓練は、ラベル以外の埋め込みの意味を解釈することを目的としており、違和感訓練は、正規化のための事前知識を活用して意味的に一貫性のある解釈を保証する。
双方のトレーニング目標により,解釈可能なクロスモーダル表現を学習する新しいエンコーダデコーダネットワークが提案されている。
TRECVidとMSR-VTTデータセットの大規模な実験により、提案されたネットワークは、統計的に有意な性能マージンを持つ最先端の検索モデルよりも優れていることが示された。
関連論文リスト
- Exploiting Minority Pseudo-Labels for Semi-Supervised Semantic Segmentation in Autonomous Driving [2.638145329894673]
マイノリティ・クラス・ラーニングを強化するためのプロフェッショナル・トレーニング・モジュールと、より包括的なセマンティック情報を学ぶための一般的なトレーニング・モジュールを提案する。
実験では,ベンチマークデータセットの最先端手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-19T11:47:25Z) - TVE: Learning Meta-attribution for Transferable Vision Explainer [76.68234965262761]
本稿では,下流タスクにおける様々な視覚モデルを効果的に説明できるTransferable Vision Explainer(TVE)を提案する。
TVEは,大規模データセットの事前学習プロセスを通じて,メタ属性の学習を実現する。
このメタ属性は、一般的なバックボーンエンコーダの汎用性を利用して、入力インスタンスの属性知識を包括的にエンコードし、TVEがシームレスに転送し、様々な下流タスクを説明することを可能にする。
論文 参考訳(メタデータ) (2023-12-23T21:49:23Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Audio-visual Generalised Zero-shot Learning with Cross-modal Attention
and Language [38.02396786726476]
マルチモーダル・アテンションを用いて音声・視覚データからマルチモーダル・表現を学習することを提案する。
一般化された音声視覚ゼロショット学習設定では、テスト時間検索空間にすべてのトレーニングクラスを含める。
この領域に統一的なベンチマークがないため、3つのオーディオ視覚データセットに(一般化された)ゼロショット学習ベンチマークを導入する。
論文 参考訳(メタデータ) (2022-03-07T18:52:13Z) - Prompting Visual-Language Models for Efficient Video Understanding [28.754997650215486]
本稿では,事前学習した1つの視覚言語モデルを,最小限のトレーニングで新しいタスクに効果的に適応させる方法を提案する。
静的画像とビデオのギャップを埋めるために、フレームワイドの視覚的特徴の上に軽量なトランスフォーマーを積み重ねたテンポラリな情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-08T18:58:16Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Learning Actor-centered Representations for Action Localization in
Streaming Videos using Predictive Learning [18.757368441841123]
ストリーミングビデオのアクションの認識やローカライズなどのイベント認識タスクは、視覚的な理解タスクに取り組む上で不可欠です。
我々は,連続的階層的予測学習という概念を通じて,テクスタクタ中心の表現を学習する問題に取り組む。
イベント知覚の認知理論に触発され、新しい自己監督型フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-29T06:06:58Z) - Teaching with Commentaries [108.62722733649542]
コメントとメタ情報を用いたフレキシブルな教育フレームワークを提案する。
解説はトレーニングのスピードと/またはパフォーマンスを改善することができる。
パフォーマンスのメリットを得るために、新しいモデルをトレーニングするときに、コメンタリを再利用できる。
論文 参考訳(メタデータ) (2020-11-05T18:52:46Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。