論文の概要: VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and
Challenges
- arxiv url: http://arxiv.org/abs/2212.13296v1
- Date: Mon, 26 Dec 2022 20:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-29 15:18:56.501049
- Title: VQA and Visual Reasoning: An Overview of Recent Datasets, Methods and
Challenges
- Title(参考訳): VQAとビジュアル推論:最近のデータセット,方法,課題の概要
- Authors: Rufai Yusuf Zakari, Jim Wilson Owusu, Hailin Wang, Ke Qin, Zaharaddeen
Karami Lawal, Yuezhou Dong
- Abstract要約: この結果、視覚と言語の統合が多くの注目を集めた。
タスクは、深層学習の概念を適切に実証するための方法で作られています。
- 参考スコア(独自算出の注目度): 1.565870461096057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence (AI) and its applications have sparked extraordinary
interest in recent years. This achievement can be ascribed in part to advances
in AI subfields including Machine Learning (ML), Computer Vision (CV), and
Natural Language Processing (NLP). Deep learning, a sub-field of machine
learning that employs artificial neural network concepts, has enabled the most
rapid growth in these domains. The integration of vision and language has
sparked a lot of attention as a result of this. The tasks have been created in
such a way that they properly exemplify the concepts of deep learning. In this
review paper, we provide a thorough and an extensive review of the state of the
arts approaches, key models design principles and discuss existing datasets,
methods, their problem formulation and evaluation measures for VQA and Visual
reasoning tasks to understand vision and language representation learning. We
also present some potential future paths in this field of research, with the
hope that our study may generate new ideas and novel approaches to handle
existing difficulties and develop new applications.
- Abstract(参考訳): 人工知能(AI)とその応用は近年、驚くべき関心を集めている。
この成果は、機械学習(ML)、コンピュータビジョン(CV)、自然言語処理(NLP)など、AIサブフィールドの進歩に部分的に説明することができる。
ニューラルネットワークの概念を用いた機械学習のサブフィールドであるdeep learningは、これらの領域における最も急速な成長を可能にした。
ビジョンと言語の統合は、この結果、多くの注目を集めた。
タスクは、深層学習の概念を適切に実証するための方法で作られています。
本稿では,芸術的アプローチの状況,鍵となるモデル設計原則,既存のデータセット,手法,VQAの問題点の定式化と評価,および視覚的推論タスクについて,視覚と言語表現学習を理解するための詳細なレビューを行う。
また,本研究は,既存の課題に対処し,新たなアプリケーションを開発するために,新たなアイデアと新しいアプローチを生み出すことを期待して,今後の研究の道筋を示す。
関連論文リスト
- Recent Advances in Generative AI and Large Language Models: Current Status, Challenges, and Perspectives [10.16399860867284]
生成人工知能(AI)と大規模言語モデル(LLM)の出現は、自然言語処理(NLP)の新しい時代を象徴している。
本稿では,これらの最先端技術の現状を概観し,その顕著な進歩と広範囲な応用を実証する。
論文 参考訳(メタデータ) (2024-07-20T18:48:35Z) - Trends, Applications, and Challenges in Human Attention Modelling [65.61554471033844]
人間の注意モデリングは視覚探索の基礎となる認知過程を理解するのに特に有用であることが証明されている。
画像やビデオ処理、視覚・言語アプリケーション、言語モデリングなど、さまざまな領域の問題を解決することを目的とした人工知能モデルのサポートを提供する。
論文 参考訳(メタデータ) (2024-02-28T19:35:30Z) - Opening the Black-Box: A Systematic Review on Explainable AI in Remote Sensing [51.524108608250074]
ブラックボックス機械学習アプローチは、リモートセンシングにおける知識抽出における主要なモデリングパラダイムとなっている。
我々は、この分野における重要なトレンドを特定するための体系的なレビューを行い、新しい説明可能なAIアプローチに光を当てた。
また,課題と将来的な研究方向性について,より詳細な展望を述べる。
論文 参考訳(メタデータ) (2024-02-21T13:19:58Z) - Machine Unlearning: A Survey [56.79152190680552]
プライバシ、ユーザビリティ、および/または忘れられる権利のために、特定のサンプルに関する情報をマシンアンラーニングと呼ばれるモデルから削除する必要がある特別なニーズが生まれている。
この新興技術は、その革新と実用性により、学者と産業の両方から大きな関心を集めている。
この複雑なトピックを分析したり、さまざまなシナリオで既存の未学習ソリューションの実現可能性を比較したりした研究はない。
この調査は、未学習のテクニックに関する卓越した問題と、新しい研究機会のための実現可能な方向性を強調して締めくくった。
論文 参考訳(メタデータ) (2023-06-06T10:18:36Z) - Towards Data-and Knowledge-Driven Artificial Intelligence: A Survey on Neuro-Symbolic Computing [73.0977635031713]
ニューラルシンボリック・コンピューティング(NeSy)は、人工知能(AI)の活発な研究領域である。
NeSyは、ニューラルネットワークにおける記号表現の推論と解釈可能性の利点と堅牢な学習の整合性を示す。
論文 参考訳(メタデータ) (2022-10-28T04:38:10Z) - Deep Learning to See: Towards New Foundations of Computer Vision [88.69805848302266]
この本はコンピュータビジョンの分野における科学的進歩を批判している。
情報に基づく自然法則の枠組みにおける視覚の研究を提案する。
論文 参考訳(メタデータ) (2022-06-30T15:20:36Z) - Visual Knowledge Discovery with Artificial Intelligence: Challenges and
Future Directions [5.754786889790288]
統合ビジュアル知識発見は、人工知能/機械学習(AI/ML)と可視化の進歩を組み合わせたものだ。
章に含まれるのは、選択されたAIおよびVisual Analytics論文の拡張バージョンと、関連するシンポジウムである。
我々は、ビジュアルアナリティクス、ビジュアルナレッジディスカバリ、AI/MLの分野における課題と今後の方向性を示し、ビジュアルAI/MLにおける可視化の役割について議論することを目的とする。
論文 参考訳(メタデータ) (2022-05-03T04:17:21Z) - Vision-Language Intelligence: Tasks, Representation Learning, and Large
Models [32.142076223602906]
本稿では,時間的観点からの視覚言語知能の包括的調査について述べる。
本稿では,この分野での開発を,タスク固有手法,視覚言語事前学習法,大規模弱ラベルデータによって強化された大規模モデルという3つの期間にまとめる。
論文 参考訳(メタデータ) (2022-03-03T18:54:59Z) - Threat of Adversarial Attacks on Deep Learning in Computer Vision:
Survey II [86.51135909513047]
ディープラーニングは、予測を操作できる敵攻撃に対して脆弱である。
本稿では,ディープラーニングに対する敵対的攻撃におけるコンピュータビジョンコミュニティの貢献を概観する。
この領域では、非専門家に技術的な用語の定義を提供する。
論文 参考訳(メタデータ) (2021-08-01T08:54:47Z) - Core Challenges in Embodied Vision-Language Planning [9.190245973578698]
本稿では,エボディード・ビジョン・ランゲージ・プランニング(Embodied Vision-Language Planning)タスクについて論じる。
我々はこれらのタスクを統一する分類法を提案し、新しいアルゴリズムアプローチと現在のアルゴリズムアプローチの分析と比較を行う。
我々は,モデル一般化性を実現し,実世界の展開を促進するタスク構築を提唱する。
論文 参考訳(メタデータ) (2021-06-26T05:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。