論文の概要: Incorporating granularity bias as the margin into contrastive loss for
video captioning
- arxiv url: http://arxiv.org/abs/2311.14977v1
- Date: Sat, 25 Nov 2023 09:38:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:30:44.859965
- Title: Incorporating granularity bias as the margin into contrastive loss for
video captioning
- Title(参考訳): ビデオキャプションにおけるコントラストロスのマージンとしての粒度バイアス
- Authors: Jiayang Gu, Fengming Yao
- Abstract要約: 句の長い尾の分布は、キャプションモデルにおいて、正確な文ではなく曖昧な文を生成する傾向がある。
本稿では,統計に基づく偏差抽出器を導入し,ビデオ文対が粒度バイアスの影響を受けている可能性を推定する。
次に,比較学習損失にマージンスコアを組み込んで,頭と尾の文の訓練目標を確立する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video captioning models easily suffer from long-tail distribution of phrases,
which makes captioning models prone to generate vague sentences instead of
accurate ones. However, existing debiasing strategies tend to export external
knowledge to build dependency trees of words or refine frequency distribution
by complex losses and extra input features, which lack interpretability and are
hard to train. To mitigate the impact of granularity bias on the model, we
introduced a statistical-based bias extractor. This extractor quantifies the
information content within sentences and videos, providing an estimate of the
likelihood that a video-sentence pair is affected by granularity bias.
Furthermore, with the growing trend of integrating contrastive learning methods
into video captioning tasks, we use a bidirectional triplet loss to get more
negative samples in a batch. Subsequently, we incorporate the margin score into
the contrastive learning loss, establishing distinct training objectives for
head and tail sentences. This approach facilitates the model's training
effectiveness on tail samples. Our simple yet effective loss, incorporating
Granularity bias, is referred to as the Margin-Contrastive Loss (GMC Loss). The
proposed model demonstrates state-of-the-art performance on MSRVTT with a CIDEr
of 57.17, and MSVD, where CIDEr reaches up to 138.68.
- Abstract(参考訳): ビデオキャプションモデルはフレーズの長いテール分布に簡単に苦しむため、キャプションモデルは正確なものの代わりに曖昧な文を生成する傾向がある。
しかしながら、既存のデバイアス戦略は、単語の依存木を構築するために外部の知識をエクスポートしたり、複雑な損失と追加の入力機能によって周波数分布を洗練したりする傾向がある。
モデルに対する粒度バイアスの影響を軽減するため,統計に基づくバイアス抽出器を導入した。
この抽出装置は、文やビデオ内の情報内容の定量化を行い、ビデオ・センスペアが粒度バイアスの影響を受ける可能性を推定する。
さらに,ビデオキャプションタスクにコントラスト学習手法を統合する傾向が高まる中,双方向三重項損失を用いてバッチ内のよりネガティブなサンプルを得る。
その後,比較学習損失にマージンスコアを組み込み,頭尾文の異なる学習目標を確立した。
このアプローチは、テールサンプルに対するモデルのトレーニングの有効性を促進する。
粒度のバイアスを取り入れた単純な損失は、Margin-Contrastive Loss(GMC Loss)と呼ばれる。
提案モデルでは、サイダーが57.17であるmsrvttと、サイダーが最大138.68に達するmsvdで最新性能を示す。
関連論文リスト
- Debiasing Large Vision-Language Models by Ablating Protected Attribute Representations [7.052925981783274]
本稿では,テキスト生成時のバイアス属性を直接評価することで,LVLMのための新しい脱バイアスフレームワークを提案する。
本手法では, トレーニングを必要とせず, 比較的少数の代表バイアス出力が要求される。
我々の実験は、LVLMが保護属性に関連するテキストを生成することの妥当性を最小化できるだけでなく、合成データを使ってアブレーションを知らせることさえできることを示した。
論文 参考訳(メタデータ) (2024-10-17T19:02:31Z) - Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Unmasking Bias in Diffusion Model Training [40.90066994983719]
拡散モデルが画像生成の主流のアプローチとして登場した。
トレーニングの収束が遅く、サンプリングのカラーシフトの問題に悩まされている。
本稿では,これらの障害は,既定のトレーニングパラダイムに固有のバイアスや準最適性に大きく起因していると考えられる。
論文 参考訳(メタデータ) (2023-10-12T16:04:41Z) - TDCGL: Two-Level Debiased Contrastive Graph Learning for Recommendation [1.5836776102398225]
実世界におけるKGの実体の長期分布とノイズ問題により、アイテム・エンティリティ依存関係は真の特性を反映しない。
我々はTDCL(Two-Level Debiased Contrastive Learning)を設計し、知識グラフに展開する。
オープンソースデータセットに関する検討実験により,提案手法は優れたアンチノイズ性能を有することが示された。
論文 参考訳(メタデータ) (2023-10-01T03:56:38Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Exploring the Impact of Negative Samples of Contrastive Learning: A Case
Study of Sentence Embedding [14.295787044482136]
文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル、すなわちMoCoSEを提案する。
我々は最大トレーサブル距離測定値を定義し、テキストが負のサンプルの履歴情報からどの程度の差があるかを学習する。
実験の結果,最大トレーサブル距離が一定の範囲にある場合に最もよい結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-26T08:29:25Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - A Simple but Tough-to-Beat Data Augmentation Approach for Natural
Language Understanding and Generation [53.8171136907856]
カットオフと呼ばれる、シンプルで効果的なデータ拡張戦略のセットを紹介します。
カットオフはサンプリング一貫性に依存しているため、計算オーバーヘッドが少なくなる。
cutoffは、敵のトレーニングを一貫して上回り、IWSLT2014 German- English データセットで最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T07:08:35Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。