Fugu-MT 論文翻訳(概要): Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

論文の概要: Multimodal Research in Vision and Language: A Review of Current and Emerging Trends

arxiv url: http://arxiv.org/abs/2010.09522v2
Date: Tue, 22 Dec 2020 04:43:20 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-05 20:28:01.113663
Title: Multimodal Research in Vision and Language: A Review of Current and Emerging Trends
Title（参考訳）: 視覚・言語におけるマルチモーダル研究の現状と今後の展望
Authors: Shagun Uppal, Sarthak Bhagat, Devamanyu Hazarika, Navonil Majumdar, Soujanya Poria, Roger Zimmermann, and Amir Zadeh
Abstract要約: 本稿では,視覚的・言語的モダリティに関する最新の研究動向について概説する。タスクの定式化におけるその応用と、意味認識やコンテンツ生成に関する様々な問題を解決する方法について検討する。私たちは、この領域をよりモジュール的で透明なインテリジェントなシステムに向け、過去に現れた、多分野のパターンと洞察に光を当てました。
参考スコア（独自算出の注目度）: 41.07256031348454
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Deep Learning and its applications have cascaded impactful research and development with a diverse range of modalities present in the real-world data. More recently, this has enhanced research interests in the intersection of the Vision and Language arena with its numerous applications and fast-paced growth. In this paper, we present a detailed overview of the latest trends in research pertaining to visual and language modalities. We look at its applications in their task formulations and how to solve various problems related to semantic perception and content generation. We also address task-specific trends, along with their evaluation strategies and upcoming challenges. Moreover, we shed some light on multi-disciplinary patterns and insights that have emerged in the recent past, directing this field towards more modular and transparent intelligent systems. This survey identifies key trends gravitating recent literature in VisLang research and attempts to unearth directions that the field is heading towards.
Abstract（参考訳）: ディープラーニングとその応用は、実世界のデータに様々なモダリティが存在する影響のある研究と開発をカスケードしている。最近では、ビジョンと言語分野の交点における研究の関心が、多くの応用と急速な成長と共に高まっている。本稿では,視覚的・言語的モダリティに関する最新の研究動向について概説する。我々は,そのタスクの定式化における応用と,意味知覚とコンテンツ生成に関する様々な問題を解決する方法について考察する。また,タスク固有の傾向や評価戦略,今後の課題にも対処する。さらに,近年出現した多分野のパターンや洞察に光を当てて,よりモジュール化された透明なインテリジェントシステムに向けて,この分野を指導した。この調査は、VisLang研究における最近の文献を浮き彫りにする重要なトレンドを特定し、フィールドが向かっている方向を解明しようとする試みである。

関連論文リスト

Large Language Models Meet Stance Detection: A Survey of Tasks, Methods, Applications, Challenges and Future Directions [0.37865171120254354]
スタンス検出は、ソーシャルメディア、ニュース記事、オンラインレビューなど、さまざまなプラットフォームにわたる主観的コンテンツを理解するために不可欠である。大規模言語モデル(LLM)の最近の進歩は、新しい能力を導入して姿勢検出に革命をもたらした。本稿では3つの重要な側面に沿って構築されたLCMに基づく姿勢検出手法について,新しい分類法を提案する。スタンス検出、政治分析、公衆衛生モニタリング、ソーシャルメディアのモデレーションにおける主要な応用について論じる。
論文参考訳（メタデータ） (2025-05-13T11:47:49Z)
Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey [124.23247710880008]
マルチモーダルCoT (MCoT) 推論は近年大きな研究の注目を集めている。既存のMCoT研究は、画像、ビデオ、音声、オーディオ、3D、構造化データの課題に対処する様々な手法を設計している。我々はMCoT推論に関する最初の体系的な調査を行い、関連する基礎概念と定義を解明する。
論文参考訳（メタデータ） (2025-03-16T18:39:13Z)
Self-assessment, Exhibition, and Recognition: a Review of Personality in Large Language Models [29.086329448754412]
本稿では,現在の研究を,自己評価,展示,認識という3つの研究課題に分類して総合的なレビューを行う。本稿は,大規模言語モデルにおける人格に関する最新の文献を包括的に調査した初めての論文である。
論文参考訳（メタデータ） (2024-06-25T15:08:44Z)
Large Language Models for Education: A Survey and Outlook [69.02214694865229]
各視点の技術的進歩を体系的にレビューし、関連するデータセットとベンチマークを整理し、教育におけるLSMの展開に伴うリスクと課題を特定する。本調査は、LLMの力を利用して教育実践を変革し、より効果的なパーソナライズされた学習環境を育むための、教育者、研究者、政策立案者のための総合的な技術図を提供することを目的とする。
論文参考訳（メタデータ） (2024-03-26T21:04:29Z)
A Survey of Neural Code Intelligence: Paradigms, Advances and Beyond [84.95530356322621]
この調査は、コードインテリジェンスの発展に関する体系的なレビューを示す。 50以上の代表モデルとその変種、20以上のタスクのカテゴリ、および680以上の関連する広範な研究をカバーしている。発達軌道の考察に基づいて、コードインテリジェンスとより広範なマシンインテリジェンスとの間の新たな相乗効果について検討する。
論文参考訳（メタデータ） (2024-03-21T08:54:56Z)
Large Language Models(LLMs) on Tabular Data: Prediction, Generation, and Understanding -- A Survey [17.19337964440007]
現在、この研究領域における主要なテクニック、メトリクス、データセット、モデル、最適化アプローチを要約し比較する包括的なレビューが欠如しています。この調査は、これらの領域における最近の進歩を集約し、使用するデータセット、メトリクス、方法論の詳細な調査と分類を提供することによって、このギャップに対処することを目的としている。既存の文献の強さ、限界、未探索領域、ギャップを識別し、この重要かつ急速に発展する分野における将来の研究の方向性についていくつかの洞察を提供する。
論文参考訳（メタデータ） (2024-02-27T23:59:01Z)
Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文参考訳（メタデータ） (2024-01-30T03:51:44Z)
Trends in Integration of Knowledge and Large Language Models: A Survey and Taxonomy of Methods, Benchmarks, and Applications [41.24492058141363]
大規模言語モデル(LLM)は、様々な自然言語処理において優れた性能を示すが、時代遅れのデータやドメイン固有の制限から生じる問題の影響を受けやすい。本稿では,手法,ベンチマーク,応用の分類など,知識モデルと大規模言語モデルの統合の動向を論じるレビューを提案する。
論文参考訳（メタデータ） (2023-11-10T05:24:04Z)
A Comprehensive Survey of Forgetting in Deep Learning Beyond Continual Learning [58.107474025048866]
蓄積とは、以前に獲得した知識の喪失または劣化を指す。フォッテッティングは、深層学習における様々な研究領域でよく見られる現象である。
論文参考訳（メタデータ） (2023-07-16T16:27:58Z)
Parsing Objects at a Finer Granularity: A Survey [54.72819146263311]
微細な視覚解析は、農業、リモートセンシング、宇宙技術など、多くの現実世界の応用において重要である。卓越した研究努力は、異なるパラダイムに従って、これらのきめ細かいサブタスクに取り組む。我々は,パート関係を学習する新たな視点から,先進的な研究を深く研究する。
論文参考訳（メタデータ） (2022-12-28T04:20:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。