論文の概要: Multimodal Research in Vision and Language: A Review of Current and
Emerging Trends
- arxiv url: http://arxiv.org/abs/2010.09522v2
- Date: Tue, 22 Dec 2020 04:43:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 20:28:01.113663
- Title: Multimodal Research in Vision and Language: A Review of Current and
Emerging Trends
- Title(参考訳): 視覚・言語におけるマルチモーダル研究の現状と今後の展望
- Authors: Shagun Uppal, Sarthak Bhagat, Devamanyu Hazarika, Navonil Majumdar,
Soujanya Poria, Roger Zimmermann, and Amir Zadeh
- Abstract要約: 本稿では,視覚的・言語的モダリティに関する最新の研究動向について概説する。
タスクの定式化におけるその応用と、意味認識やコンテンツ生成に関する様々な問題を解決する方法について検討する。
私たちは、この領域をよりモジュール的で透明なインテリジェントなシステムに向け、過去に現れた、多分野のパターンと洞察に光を当てました。
- 参考スコア(独自算出の注目度): 41.07256031348454
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Deep Learning and its applications have cascaded impactful research and
development with a diverse range of modalities present in the real-world data.
More recently, this has enhanced research interests in the intersection of the
Vision and Language arena with its numerous applications and fast-paced growth.
In this paper, we present a detailed overview of the latest trends in research
pertaining to visual and language modalities. We look at its applications in
their task formulations and how to solve various problems related to semantic
perception and content generation. We also address task-specific trends, along
with their evaluation strategies and upcoming challenges. Moreover, we shed
some light on multi-disciplinary patterns and insights that have emerged in the
recent past, directing this field towards more modular and transparent
intelligent systems. This survey identifies key trends gravitating recent
literature in VisLang research and attempts to unearth directions that the
field is heading towards.
- Abstract(参考訳): ディープラーニングとその応用は、実世界のデータに様々なモダリティが存在する影響のある研究と開発をカスケードしている。
最近では、ビジョンと言語分野の交点における研究の関心が、多くの応用と急速な成長と共に高まっている。
本稿では,視覚的・言語的モダリティに関する最新の研究動向について概説する。
我々は,そのタスクの定式化における応用と,意味知覚とコンテンツ生成に関する様々な問題を解決する方法について考察する。
また,タスク固有の傾向や評価戦略,今後の課題にも対処する。
さらに,近年出現した多分野のパターンや洞察に光を当てて,よりモジュール化された透明なインテリジェントシステムに向けて,この分野を指導した。
この調査は、VisLang研究における最近の文献を浮き彫りにする重要なトレンドを特定し、フィールドが向かっている方向を解明しようとする試みである。
関連論文リスト
- Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and
Understanding -- A Survey [17.765458116029734]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。
この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。
既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文 参考訳(メタデータ) (2024-02-27T23:59:01Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of
Large Models [30.874919553344856]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - Large Language Models for Generative Information Extraction: A Survey [93.28676955662002]
情報抽出は、平易な自然言語テキストから構造的知識を抽出することを目的としている。
生成型大規模言語モデル(LLM)は、テキストの理解と生成において顕著な能力を示した。
LLMは生成パラダイムに基づいたIEタスクに対して実行可能なソリューションを提供する。
論文 参考訳(メタデータ) (2023-12-29T14:25:22Z) - Trends in Integration of Knowledge and Large Language Models: A Survey
and Taxonomy of Methods, Benchmarks, and Applications [42.61727038213399]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた性能を示すが、時代遅れのデータやドメイン固有の制限から生じる問題の影響を受けやすい。
本稿では,手法,ベンチマーク,応用の分類など,知識モデルと大規模言語モデルの統合の動向を論じるレビューを提案する。
論文 参考訳(メタデータ) (2023-11-10T05:24:04Z) - A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual
Learning [76.47138162283714]
蓄積とは、以前取得した情報や知識の喪失または劣化を指す。
フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
調査では、忘れることは二重刃の剣であり、ある場合には有益で望ましいと論じている。
論文 参考訳(メタデータ) (2023-07-16T16:27:58Z) - Vision + Language Applications: A Survey [3.8073142980733]
本稿では,テキスト,視覚,音声などのマルチモーダルアプリケーションにおける研究トラックについて検討する。
本稿で論じる研究に加えて、最新の関連論文、データセット、アプリケーションプロジェクト、および対応する情報を継続的に更新することを約束しています。
論文 参考訳(メタデータ) (2023-05-24T00:42:06Z) - Parsing Objects at a Finer Granularity: A Survey [54.72819146263311]
微細な視覚解析は、農業、リモートセンシング、宇宙技術など、多くの現実世界の応用において重要である。
卓越した研究努力は、異なるパラダイムに従って、これらのきめ細かいサブタスクに取り組む。
我々は,パート関係を学習する新たな視点から,先進的な研究を深く研究する。
論文 参考訳(メタデータ) (2022-12-28T04:20:10Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - Evolutionary Multitask Optimization: a Methodological Overview,
Challenges and Future Research Directions [8.14509634354919]
一つの探索プロセスを実行することで、複数の最適化問題を同時に解くという文脈でマルチタスクを考える。
進化的マルチタスクの新たなパラダイムは、進化的計算から引き出されたインスピレーションの概念を用いて、マルチタスク最適化のシナリオに取り組む。
論文 参考訳(メタデータ) (2021-02-04T11:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。