Fugu-MT 論文翻訳(概要): Multi-modal Robustness Analysis Against Language and Visual Perturbations

論文の概要: Multi-modal Robustness Analysis Against Language and Visual Perturbations

arxiv url: http://arxiv.org/abs/2207.02159v2
Date: Wed, 6 Jul 2022 00:34:32 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-07 11:58:28.996908
Title: Multi-modal Robustness Analysis Against Language and Visual Perturbations
Title（参考訳）: 言語と視覚摂動に対するマルチモーダルロバストネス解析
Authors: Madeline C. Schiappa, Shruti Vyas, Hamid Palangi, Yogesh S. Rawat, Vibhav Vineet
Abstract要約: テキスト・ビデオ検索に着目し,MSRVTT-PとYouCook2-Pの2つの大規模ベンチマークデータセットを提案する。研究対象のモデルは、テキストの摂動時よりも、ビデオの摂動時の方が頑丈だ。 2分岐エンコーダを分離して使用する場合、アーキテクチャがクロスアテンションを使用する場合よりも、一般的には堅牢である。
参考スコア（独自算出の注目度）: 10.862722733649543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Joint visual and language modeling on large-scale datasets has recently shown a good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of such models against various real-world perturbations focusing on video and language. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different textual perturbations. The study reveals some interesting findings: 1) The studied models are more robust when text is perturbed versus when video is perturbed 2) The transformer text encoder is more robust on non-semantic changing text perturbations and visual perturbations compared to word embedding approaches. 3) Using two-branch encoders in isolation is typically more robust than when architectures use cross-attention. We hope this study will serve as a benchmark and guide future research in robust multimodal learning.
Abstract（参考訳）: 大規模データセットを用いた共同視覚と言語モデリングは、最近、単一のモーダル学習と比較して、マルチモーダルタスクの良好な進歩を示している。しかし、現実世界の摂動に対するこれらのアプローチの堅牢性は研究されていない。本研究では,映像と言語に着目した様々な現実世界の摂動に対して,このようなモデルを用いた大規模ロバストネス研究を行う。テキスト間検索に焦点をあて,90の異なる視覚と35の異なるテキスト摂動を利用する2つの大規模ベンチマークデータセットMSRVTT-PとYouCook2-Pを提案する。この研究は興味深い発見をいくつか示しています。 1)テキストの摂動時とビデオの摂動時とでは,研究モデルの方が頑健である 2) トランスフォーマーテキストエンコーダは, 単語埋め込み手法と比較して, テキストの摂動や視覚の摂動に頑健である。 3) 2分岐エンコーダを分離して使用する場合、アーキテクチャがクロスアテンションを使用する場合よりも頑健である。この研究がベンチマークとなり、堅牢なマルチモーダル学習における今後の研究のガイドとなることを願っています。

関連論文リスト

Improved Alignment of Modalities in Large Vision Language Models [1.4561960744147884]
本稿では,自動回帰視覚言語モデルの学習戦略を提案する。視覚モデルを言語モデルと整合させるための4つの訓練段階を提案する。また、トランスフォーマーベースの言語モデルをトレーニングするための異なる注意マスクも考案した。
論文参考訳（メタデータ） (2025-03-25T09:59:46Z)
Rethinking Video-Text Understanding: Retrieval from Counterfactually Augmented Data [19.210471935816273]
本稿では,映像テキスト理解のための新しい評価タスク,すなわち,対実的拡張データ(RCAD)と新しいFeint6Kデータセットを提案する。新しい評価タスクを成功させるためには、モデルはクロスフレーム推論からビデオの包括的理解を導き出さなければならない。提案手法は,複数のビデオテキストモデルに適用した場合に,より識別的な動作埋め込みを学習し,Feint6Kの結果を改善する。
論文参考訳（メタデータ） (2024-07-18T01:55:48Z)
Grafting Pre-trained Models for Multimodal Headline Generation [12.063053852096514]
マルチモーダルヘッドラインはビデオフレームと書き起こしの両方を利用して、ビデオの自然言語タイトルを生成する。事前学習された言語モデルとビデオ言語モデルに関するこれまでの研究は、下流タスクにおいて大きな進歩を遂げた。本稿では,ビデオエンコーダを生成前学習言語モデル上に事前学習したビデオ言語モデルから移植する手法を提案する。
論文参考訳（メタデータ） (2022-11-14T08:59:59Z)
Learning a Grammar Inducer from Massive Uncurated Instructional Videos [118.7279072358029]
映像支援文法帰納法は,映像情報を利用してより正確な構文文法を検索することを目的としている。我々は手動で設計した機能なしでビデオスパン相関をよりよく学習できる新しいモデルを構築した。我々のモデルは、ドメイン内のデータに基づいてトレーニングされた従来の最先端システムよりも高いF1スコアが得られる。
論文参考訳（メタデータ） (2022-10-22T00:22:55Z)
CLIP-ViP: Adapting Pre-trained Image-Text Model to Video-Language Representation Alignment [146.3128011522151]
本稿では,CLIP,すなわちCLIP-ViPに基づいて,ビデオプロキシ機構を備えたOmniクロスモーダル学習手法を提案する。提案手法は,ビデオテキスト検索におけるCLIPの性能を大きなマージンで向上させる。 MSR-VTT, DiDeMo, LSMDC, ActivityNet など,様々なデータセット上でのSOTA結果も得られた。
論文参考訳（メタデータ） (2022-09-14T05:47:02Z)
An Understanding-Oriented Robust Machine Reading Comprehension Model [12.870425062204035]
本稿では,3種類のロバスト性問題に対処する理解指向機械読解モデルを提案する。具体的には、入力された質問の正確な意味を理解するために、まず自然言語推論モジュールを使用します。第3に,一般化の問題に対処する多言語学習機構を提案する。
論文参考訳（メタデータ） (2022-07-01T03:32:02Z)
Revealing Single Frame Bias for Video-and-Language Learning [115.01000652123882]
単一フレームのトレーニングモデルでは,トレーニングに複数のフレームを使用する既存手法よりも優れたパフォーマンスが得られることを示す。この結果は、人気のあるビデオおよび言語データセットに強い「静的な外観バイアス」が存在することを明らかにする。本稿では、時間的モデリングを促進するために、既存のきめ細かい行動認識データセットに基づく2つの新しい検索タスクを提案する。
論文参考訳（メタデータ） (2022-06-07T16:28:30Z)
Towards Fast Adaptation of Pretrained Contrastive Models for Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文参考訳（メタデータ） (2022-06-05T01:43:52Z)
MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。 MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。 Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文参考訳（メタデータ） (2021-06-04T17:57:39Z)
Towards Trustworthy Deception Detection: Benchmarking Model Robustness across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文参考訳（メタデータ） (2021-04-23T18:05:52Z)
Watch and Learn: Mapping Language and Noisy Real-world Videos with Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文参考訳（メタデータ） (2020-11-19T03:43:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。