Fugu-MT 論文翻訳(概要): Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning

論文の概要: Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning

arxiv url: http://arxiv.org/abs/2407.03788v2
Date: Sat, 20 Jul 2024 03:15:26 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-24 00:42:21.542903
Title: Meta-optimized Angular Margin Contrastive Framework for Video-Language Representation Learning
Title（参考訳）: ビデオ言語表現学習のためのメタ最適化Angular Marginコントラストフレームワーク
Authors: Thong Nguyen, Yi Bin, Xiaobao Wu, Xinshuai Dong, Zhiyuan Hu, Khoi Le, Cong-Duy Nguyen, See-Kiong Ng, Luu Anh Tuan,
Abstract要約: 以前のデータにおけるビデオテキストペアは通常、完全に一致しないため、クロスモーダルなセマンティクスを正確に反映しないビデオ言語表現につながる可能性がある。完全類似性を達成するために, モーダル表現を正則化するために, 狭義の角辺を持つ対照的な対象を提案する。
参考スコア（独自算出の注目度）: 34.259833094575285
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data quality stands at the forefront of deciding the effectiveness of video-language representation learning. However, video-text pairs in previous data typically do not align perfectly with each other, which might lead to video-language representations that do not accurately reflect cross-modal semantics. Moreover, previous data also possess an uneven distribution of concepts, thereby hampering the downstream performance across unpopular subjects. To address these problems, we propose a contrastive objective with a subtractive angular margin to regularize cross-modal representations in their effort to reach perfect similarity. Furthermore, to adapt to the non-uniform concept distribution, we propose a multi-layer perceptron (MLP)-parameterized weighting function that maps loss values to sample weights which enable dynamic adjustment of the model's focus throughout the training. With the training guided by a small amount of unbiased meta-data and augmented by video-text data generated by large vision-language model, we improve video-language representations and achieve superior performances on commonly used video question answering and text-video retrieval datasets.
Abstract（参考訳）: データ品質は、ビデオ言語表現学習の有効性を決定する最前線にある。しかし、以前のデータにおけるビデオテキストのペアは通常、完全に一致しないため、ビデオ言語による表現は、正確にはクロスモーダルなセマンティクスを反映しない。さらに、従来のデータにも概念の不均一な分布があり、不人気な対象に対する下流のパフォーマンスを阻害する。これらの問題に対処するため, 完全類似性を達成するためのクロスモーダル表現を正規化するために, 減算的角マージンを持つ対照的な目的を提案する。さらに, 不均一な概念分布に対応するために, 多層パーセプトロン(MLP)パラメータ重み付け関数を提案する。大規模な視覚言語モデルによって生成されたビデオテキストデータにより、少量の未バイアスメタデータで指導され、強化された訓練により、ビデオ言語表現を改善し、よく使われるビデオ質問応答とテキストビデオ検索データセットにおいて優れたパフォーマンスを達成する。

関連論文リスト

Can Video LLMs Refuse to Answer? Alignment for Answerability in Video Large Language Models [21.966865098520277]
ビデオ大言語モデル(Video-LLM)は、主にビデオコンテンツから直接生成された質問に基づいて訓練される。現実世界のシナリオでは、ユーザーはしばしば、ビデオの情報範囲を超えて広がる質問をする。本稿では,ビデオLLMと,その映像に基づいて質問の関連性を評価するためのフレームワークである応答可能性のアライメントを提案する。
論文参考訳（メタデータ） (2025-07-07T13:19:43Z)
Realizing Video Summarization from the Path of Language-based Semantic Understanding [19.825666473712197]
本稿では,Mixture of Experts(MoE)パラダイムに触発された新しいビデオ要約フレームワークを提案する。提案手法は,複数のビデオLLMを統合し,包括的で一貫性のあるテキスト要約を生成する。
論文参考訳（メタデータ） (2024-10-06T15:03:22Z)
Training-free Video Temporal Grounding using Large-scale Pre-trained Models [41.71055776623368]
ビデオの時間的グラウンドは、与えられた自然言語クエリに最も関係のある、トリミングされていないビデオ内のビデオセグメントを特定することを目的としている。既存のビデオ時間的ローカライゼーションモデルは、トレーニングのために特定のデータセットに依存しており、データ収集コストが高い。本研究では,事前学習型大規模モデルの能力を活用したトレーニングフリービデオ時間グラウンド手法を提案する。
論文参考訳（メタデータ） (2024-08-29T02:25:12Z)
Video In-context Learning [46.40277880351059]
本稿では,既存のビデオクリップからモデルが始まり,様々な将来的なシーケンスを生成するビデオインコンテキスト学習について検討する。これを実現するために、タスクを明確に定義し、ビデオデータセット上で自動回帰変換器を訓練する。客観的尺度と主観的尺度の両方を含む様々な評価指標を設計し、生成結果の視覚的品質と意味的精度を実証する。
論文参考訳（メタデータ） (2024-07-10T04:27:06Z)
VideoCon: Robust Video-Language Alignment via Contrast Captions [80.08882631838914]
ビデオ言語アライメントモデルは、ビデオキャプションのセマンティックなコントラスト変化に対して堅牢ではない。私たちの研究は、エンティティの置換やアクション、イベント順序の反転など、幅広いコントラストのミスアライメントを特定します。本モデルは,時間的に拡大したビデオ言語タスクにおけるゼロショット性能の新たな状態を設定する。
論文参考訳（メタデータ） (2023-11-15T19:51:57Z)
Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文参考訳（メタデータ） (2022-10-22T00:22:55Z)
Mitigating Representation Bias in Action Recognition: Algorithms and Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文参考訳（メタデータ） (2022-09-20T00:30:35Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)
Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。 Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。私たちのコードと事前訓練されたモデルはリリースされます。
論文参考訳（メタデータ） (2021-12-17T15:55:53Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。