論文の概要: How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey
- arxiv url: http://arxiv.org/abs/2412.08158v1
- Date: Wed, 11 Dec 2024 07:29:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:04:26.434773
- Title: How Vision-Language Tasks Benefit from Large Pre-trained Models: A Survey
- Title(参考訳): 大規模事前訓練モデルによる視覚言語タスクの便益に関する調査
- Authors: Yayun Qi, Hongxi Li, Yiqi Song, Xinxiao Wu, Jiebo Luo,
- Abstract要約: 近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。
事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
- 参考スコア(独自算出の注目度): 59.23394353614928
- License:
- Abstract: The exploration of various vision-language tasks, such as visual captioning, visual question answering, and visual commonsense reasoning, is an important area in artificial intelligence and continuously attracts the research community's attention. Despite the improvements in overall performance, classic challenges still exist in vision-language tasks and hinder the development of this area. In recent years, the rise of pre-trained models is driving the research on vision-language tasks. Thanks to the massive scale of training data and model parameters, pre-trained models have exhibited excellent performance in numerous downstream tasks. Inspired by the powerful capabilities of pre-trained models, new paradigms have emerged to solve the classic challenges. Such methods have become mainstream in current research with increasing attention and rapid advances. In this paper, we present a comprehensive overview of how vision-language tasks benefit from pre-trained models. First, we review several main challenges in vision-language tasks and discuss the limitations of previous solutions before the era of pre-training. Next, we summarize the recent advances in incorporating pre-trained models to address the challenges in vision-language tasks. Finally, we analyze the potential risks associated with the inherent limitations of pre-trained models and discuss possible solutions, attempting to provide future research directions.
- Abstract(参考訳): 視覚的キャプション、視覚的質問応答、視覚的コモンセンス推論などの視覚言語タスクの探索は、人工知能において重要な領域であり、研究コミュニティの注目を集めている。
全体的なパフォーマンスの改善にもかかわらず、視覚言語タスクには古典的な課題がまだ存在し、この分野の開発を妨げている。
近年、事前訓練されたモデルが台頭し、視覚言語タスクの研究が進められている。
大量のトレーニングデータとモデルパラメータのおかげで、事前訓練されたモデルは、多くの下流タスクで優れたパフォーマンスを示した。
事前訓練されたモデルの強力な能力に触発されて、古典的な課題を解決するために新しいパラダイムが登場した。
このような手法は、注目と急速な進歩とともに、現在の研究において主流となっている。
本稿では,事前学習モデルによる視覚言語タスクのメリットについて概観する。
まず,視覚言語課題におけるいくつかの課題を概観し,事前学習の開始前の先行ソリューションの限界について考察する。
次に、視覚言語タスクにおける課題に対処するために、事前学習モデルの導入に関する最近の進歩を要約する。
最後に、事前学習されたモデル固有の制約に関連する潜在的なリスクを分析し、将来的な研究方向の提供を試みながら、可能な解決策について議論する。
関連論文リスト
- A Survey on Vision Autoregressive Model [15.042485771127346]
自然言語処理(NLP)における自己回帰モデルの性能を実証した
NLP分野での顕著な成功にインスパイアされた自己回帰モデルは、近年コンピュータビジョンにおいて集中的に研究されている。
本稿では,既存の手法の分類学の発展を含む,視覚自己回帰モデルに関する体系的なレビューを行う。
論文 参考訳(メタデータ) (2024-11-13T14:59:41Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - VIPriors 4: Visual Inductive Priors for Data-Efficient Deep Learning Challenges [12.615348941903594]
VIPriors: Visual Inductive Priors for Data-Efficient Deep Learning”ワークショップの第4版では、2つのデータ不足の課題が紹介されている。
これらの課題は、限られたデータでコンピュータビジョンタスクのディープラーニングモデルをトレーニングする際の問題に対処する。
深層学習モデルのデータ効率を向上させるために,帰納的バイアスを取り入れた新しい手法の開発を促進することを目的としている。
論文 参考訳(メタデータ) (2024-06-26T08:50:51Z) - Failures Are Fated, But Can Be Faded: Characterizing and Mitigating Unwanted Behaviors in Large-Scale Vision and Language Models [7.736445799116692]
多くのタスクで驚くほどうまく機能しているように見える大きなディープニューラルネットワークでは、精度、社会的バイアス、人間の価値観との整合性に関連するいくつかの障害も観察します。
本研究では,事前学習した識別モデルと生成モデルを用いて,エンフディープ強化学習を用いて,障害モードの景観を探索・構築するポストホック手法を提案する。
提案手法の有効性を,コンピュータビジョン,自然言語処理,視覚言語タスクで実証的に示す。
論文 参考訳(メタデータ) (2024-06-11T10:45:41Z) - Trends, Applications, and Challenges in Human Attention Modelling [65.61554471033844]
人間の注意モデリングは視覚探索の基礎となる認知過程を理解するのに特に有用であることが証明されている。
画像やビデオ処理、視覚・言語アプリケーション、言語モデリングなど、さまざまな領域の問題を解決することを目的とした人工知能モデルのサポートを提供する。
論文 参考訳(メタデータ) (2024-02-28T19:35:30Z) - Data-efficient Large Vision Models through Sequential Autoregression [58.26179273091461]
限られたデータセットに基づいて,効率的な自己回帰に基づく視覚モデルを構築する。
このモデルは,高レベル・低レベルのセマンティック理解の両方にまたがる視覚的タスクにおいて,その習熟度をいかに達成するかを実証する。
我々の経験的評価は、モデルが様々なタスクに適応する際の機敏さを強調し、パラメータフットプリントの大幅な削減を図った。
論文 参考訳(メタデータ) (2024-02-07T13:41:53Z) - Do Vision-and-Language Transformers Learn Grounded Predicate-Noun
Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。
我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。
本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:07:00Z) - Vision-and-Language Pretraining [44.253982520038804]
本稿では,現代V&L事前学習モデルの総合的な改訂について述べる。
特に、最先端のビジョン・アンド・ランゲージ事前学習モデルの要約とともに、事前学習アプローチの分類とデライン化を行う。
論文 参考訳(メタデータ) (2022-07-05T02:18:49Z) - Causal Reasoning Meets Visual Representation Learning: A Prospective
Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。
人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。
本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文 参考訳(メタデータ) (2022-04-26T02:22:28Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。