論文の概要: Cross-modal Contrastive Distillation for Instructional Activity
Anticipation
- arxiv url: http://arxiv.org/abs/2201.06734v1
- Date: Tue, 18 Jan 2022 04:20:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-19 16:14:51.644857
- Title: Cross-modal Contrastive Distillation for Instructional Activity
Anticipation
- Title(参考訳): 授業活動予測のためのクロスモーダルコントラスト蒸留
- Authors: Zhengyuan Yang, Jingen Liu, Jing Huang, Xiaodong He, Tao Mei,
Chenliang Xu, Jiebo Luo
- Abstract要約: 本研究では,過去を観察し,今後の課題を予測し,教育活動予測の課題を研究することを目的とする。
教示ビデオから抽出された意味情報がないため、これは難しい課題である。
本稿では,視覚的予測タスクを支援するために,関連する外部テキスト知識を活用する新しい知識蒸留フレームワークを提案する。
- 参考スコア(独自算出の注目度): 144.47787959640482
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we aim to predict the plausible future action steps given an
observation of the past and study the task of instructional activity
anticipation. Unlike previous anticipation tasks that aim at action label
prediction, our work targets at generating natural language outputs that
provide interpretable and accurate descriptions of future action steps. It is a
challenging task due to the lack of semantic information extracted from the
instructional videos. To overcome this challenge, we propose a novel knowledge
distillation framework to exploit the related external textual knowledge to
assist the visual anticipation task. However, previous knowledge distillation
techniques generally transfer information within the same modality. To bridge
the gap between the visual and text modalities during the distillation process,
we devise a novel cross-modal contrastive distillation (CCD) scheme, which
facilitates knowledge distillation between teacher and student in heterogeneous
modalities with the proposed cross-modal distillation loss. We evaluate our
method on the Tasty Videos dataset. CCD improves the anticipation performance
of the visual-alone student model by a large margin of 40.2% relatively in
BLEU4. Our approach also outperforms the state-of-the-art approaches by a large
margin.
- Abstract(参考訳): 本研究では,過去を観察する上での有効な行動ステップを予測し,教育活動予測の課題について検討する。
アクションラベル予測を目標とする従来の予測タスクとは違って,今後のアクションステップの解釈と正確な記述を提供する自然言語出力の生成を目標としています。
教示ビデオから抽出された意味情報がないため、これは難しい課題である。
この課題を克服するために, 関連する外部テキスト知識を活用し, 視覚予測タスクを支援する新しい知識蒸留フレームワークを提案する。
しかし、従来の知識蒸留技術は一般に同じモード内で情報を転送する。
蒸留過程における視覚とテキストのモーダルのギャップを埋めるため,提案するクロスモーダル蒸留損失を伴う不均一なモーダルにおける教師と生徒の知識蒸留を容易にする,新しいクロスモーダルコントラスト蒸留(ccd)スキームを考案する。
本手法をtasty videoデータセット上で評価する。
CCDは、BLEU4の40.2%という大きなマージンで視覚的単独の学生モデルの予測性能を向上させる。
我々のアプローチは最先端のアプローチを大きく上回っている。
関連論文リスト
- Learning to Maximize Mutual Information for Chain-of-Thought Distillation [13.660167848386806]
Distilling Step-by-Step(DSS)は、より大きなモデルよりも優れた推論能力を持つ小さなモデルを投入することで、約束を証明している。
しかし、DSSは2つのトレーニングタスクの本質的な関係を見落とし、CoT知識とラベル予測のタスクの非効率な統合につながる。
学習に基づく手法を用いて,この問題を解決するための変分手法を提案する。
論文 参考訳(メタデータ) (2024-03-05T22:21:45Z) - PALM: Predicting Actions through Language Models [74.10147822693791]
本稿では,長期的行動予測の課題に取り組むアプローチであるPALMを紹介する。
本手法は,従来の行動系列を追跡する行動認識モデルと,関連する環境の詳細を記述するための視覚言語モデルを含む。
実験の結果,PALMは長期的な行動予測作業において最先端の手法を超越していることがわかった。
論文 参考訳(メタデータ) (2023-11-29T02:17:27Z) - The Staged Knowledge Distillation in Video Classification: Harmonizing
Student Progress by a Complementary Weakly Supervised Framework [21.494759678807686]
ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。
本手法は,サブステージ学習の概念を利用して,学生のサブステージの組み合わせと,それに対応するサブステージの相関に基づく知識を抽出する。
提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。
論文 参考訳(メタデータ) (2023-07-11T12:10:42Z) - Knowledge Distillation via Token-level Relationship Graph [12.356770685214498]
token-level Relation Graph (TRG) を用いた知識蒸留法を提案する。
TRGを利用することで、教師モデルから高レベルの意味情報を効果的にエミュレートすることができる。
我々は,提案手法の有効性を,いくつかの最先端手法に対して評価する実験を行った。
論文 参考訳(メタデータ) (2023-06-20T08:16:37Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Uncertainty-aware Contrastive Distillation for Incremental Semantic
Segmentation [46.14545656625703]
破滅的な忘れ物とは、ニューラルネットワークが、新しいタスクを学ぶときに、古いタスクから得た知識を保存できない傾向があることです。
我々は新しい蒸留フレームワークである不確かさを意識したコントラスト蒸留法(メソッド)を提案する。
本研究は, 従来のIL法と相乗効果を持つ蒸留法の利点を実証するものである。
論文 参考訳(メタデータ) (2022-03-26T15:32:12Z) - Evidentiality-guided Generation for Knowledge-Intensive NLP Tasks [59.761411682238645]
Retrieval-augmented Generation Modelは、多くの知識集約型NLPタスクにまたがって最先端のパフォーマンスを示している。
生成器の訓練に、パスが出力をサポートするための正しい証拠を含むか否かに関わらず、パスの明快さを組み込む方法を導入する。
論文 参考訳(メタデータ) (2021-12-16T08:18:47Z) - Information Theoretic Representation Distillation [20.802135299032308]
情報理論と知識蒸留の代替関係を,最近提案したエントロピー様関数を用いて構築する。
本手法は,知識蒸留とクロスモデル伝達タスクの最先端技術に対する競争性能を実現する。
バイナリ量子化のための新しい最先端技術に光を当てた。
論文 参考訳(メタデータ) (2021-12-01T12:39:50Z) - Self-Regulated Learning for Egocentric Video Activity Anticipation [147.9783215348252]
自己制御学習(SRL)は、中間表現を連続的に制御し、現在のタイムスタンプのフレームにおける新しい情報を強調する表現を作り出すことを目的としている。
SRLは2つのエゴセントリックなビデオデータセットと2つの第三者のビデオデータセットにおいて、既存の最先端技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2021-11-23T03:29:18Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。