論文の概要: CLearViD: Curriculum Learning for Video Description
- arxiv url: http://arxiv.org/abs/2311.04480v1
- Date: Wed, 8 Nov 2023 06:20:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:07:55.860503
- Title: CLearViD: Curriculum Learning for Video Description
- Title(参考訳): CLearViD:ビデオ記述のためのカリキュラム学習
- Authors: Cheng-Yu Chuang, Pooyan Fazli
- Abstract要約: ビデオ記述は、与えられたビデオの内容をナレーションするコヒーレントな自然言語文を自動的に生成する。
本稿では,ビデオ記述生成のためのトランスフォーマーベースモデルであるCLearViDを紹介する。
ActivityNet CaptionsとYouCook2という2つのデータセットの結果から、CLearViDは精度と多様性の両方の観点から既存の最先端モデルよりも大幅に優れています。
- 参考スコア(独自算出の注目度): 3.5293199207536627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video description entails automatically generating coherent natural language
sentences that narrate the content of a given video. We introduce CLearViD, a
transformer-based model for video description generation that leverages
curriculum learning to accomplish this task. In particular, we investigate two
curriculum strategies: (1) progressively exposing the model to more challenging
samples by gradually applying a Gaussian noise to the video data, and (2)
gradually reducing the capacity of the network through dropout during the
training process. These methods enable the model to learn more robust and
generalizable features. Moreover, CLearViD leverages the Mish activation
function, which provides non-linearity and non-monotonicity and helps alleviate
the issue of vanishing gradients. Our extensive experiments and ablation
studies demonstrate the effectiveness of the proposed model. The results on two
datasets, namely ActivityNet Captions and YouCook2, show that CLearViD
significantly outperforms existing state-of-the-art models in terms of both
accuracy and diversity metrics.
- Abstract(参考訳): ビデオ記述は、与えられたビデオの内容をナレーションするコヒーレントな自然言語文を自動的に生成する。
我々は,この課題を達成するためにカリキュラム学習を利用するビデオ記述生成用トランスフォーマモデルclearvidを提案する。
特に,(1)ビデオデータにガウスノイズを徐々に適用することにより,より困難なサンプルにモデルを段階的に露出させ,(2)トレーニングプロセス中にドロップアウトすることでネットワークの容量を徐々に削減する,という2つのカリキュラム戦略について検討した。
これらの手法により、モデルはより堅牢で一般化可能な特徴を学ぶことができる。
さらに、CLearViDは、非線形性と非単調性を提供するMishアクティベーション関数を活用し、勾配の消失問題を緩和する。
広範な実験とアブレーション実験により,提案モデルの有効性が実証された。
ActivityNet CaptionsとYouCook2という2つのデータセットの結果から、CLearViDは精度と多様性の両方の観点から既存の最先端モデルよりも大幅に優れています。
関連論文リスト
- T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。
これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。
客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文 参考訳(メタデータ) (2024-07-10T04:27:06Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Curriculum-Guided Abstractive Summarization [45.57561926145256]
最近のTransformerベースの要約モデルは、抽象的な要約に有望なアプローチを提供してきた。
これらのモデルには2つの欠点がある:(1)コンテンツ選択が不十分な場合が多く、(2)トレーニング戦略があまり効率的ではないため、モデルの性能が制限される。
本稿では,これらの落とし穴を補うための2つの方法について検討する。まず,デコーダ内に文のクロスアテンションモジュールを配置することでトランスフォーマーネットワークを拡張し,より健全なコンテンツの抽象化を促進する。
論文 参考訳(メタデータ) (2023-02-02T11:09:37Z) - Robustness Analysis of Video-Language Models Against Visual and Language
Perturbations [10.862722733649543]
この研究は、様々な現実世界の摂動に対するビデオ言語ロバスト性モデルに関する最初の広範な研究である。
我々は90の異なる視覚と35の異なるテキスト摂動を利用する2つの大規模ベンチマークデータセットMSRVTT-PとYouCook2-Pを提案する。
論文 参考訳(メタデータ) (2022-07-05T16:26:05Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z) - Self-Supervised Representation Learning for Detection of ACL Tear Injury
in Knee MR Videos [18.54362818156725]
本稿では,MRビデオクリップから伝達可能な特徴を学習するための自己教師付き学習手法を提案する。
我々の知る限りでは、MRビデオから損傷分類タスクを実行する教師付き学習モデルには、モデルによる決定についての説明がない。
論文 参考訳(メタデータ) (2020-07-15T15:35:47Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。