論文の概要: A Review on Explainability in Multimodal Deep Neural Nets
- arxiv url: http://arxiv.org/abs/2105.07878v2
- Date: Tue, 18 May 2021 11:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 12:00:27.059128
- Title: A Review on Explainability in Multimodal Deep Neural Nets
- Title(参考訳): マルチモーダル深層ニューラルネットワークにおける説明可能性の検討
- Authors: Gargi Joshi, Rahee Walambe, Ketan Kotecha
- Abstract要約: マルチモーダルAI技術は、いくつかのアプリケーションドメインで大きな成功を収めている。
その優れた性能にもかかわらず、深層ニューラルネットワークの複雑で不透明でブラックボックスな性質は、社会的受容と使用性を制限する。
本稿では,マルチモーダル深層ニューラルネットワークにおける説明可能性に関する包括的調査と解説を行うため,本論文を概説する。
- 参考スコア(独自算出の注目度): 2.3204178451683264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial Intelligence techniques powered by deep neural nets have achieved
much success in several application domains, most significantly and notably in
the Computer Vision applications and Natural Language Processing tasks.
Surpassing human-level performance propelled the research in the applications
where different modalities amongst language, vision, sensory, text play an
important role in accurate predictions and identification. Several multimodal
fusion methods employing deep learning models are proposed in the literature.
Despite their outstanding performance, the complex, opaque and black-box nature
of the deep neural nets limits their social acceptance and usability. This has
given rise to the quest for model interpretability and explainability, more so
in the complex tasks involving multimodal AI methods. This paper extensively
reviews the present literature to present a comprehensive survey and commentary
on the explainability in multimodal deep neural nets, especially for the vision
and language tasks. Several topics on multimodal AI and its applications for
generic domains have been covered in this paper, including the significance,
datasets, fundamental building blocks of the methods and techniques,
challenges, applications, and future trends in this domain
- Abstract(参考訳): ディープニューラルネットワークを利用した人工知能技術は、コンピュータビジョンアプリケーションや自然言語処理タスクなど、いくつかのアプリケーション領域で大きな成功を収めています。
人間レベルのパフォーマンスを上回ることで、言語、視覚、感覚、テキストの異なるモダリティが正確な予測と識別において重要な役割を果たすアプリケーションの研究が促進された。
深層学習モデルを用いたマルチモーダル融合法が文献で提案されている。
その優れた性能にもかかわらず、深層ニューラルネットワークの複雑で不透明でブラックボックスな性質は、社会的受容と使用性を制限する。
これにより、モデル解釈可能性と説明可能性の探求が生まれ、さらにマルチモーダルAIメソッドを含む複雑なタスクにもたらされた。
本稿では,マルチモーダル深層ニューラルネットワーク,特に視覚と言語タスクにおける説明可能性に関する包括的な調査と解説を行うため,本論文を概説する。
本稿では,マルチモーダルaiとその汎用ドメインへの応用に関するいくつかの話題を取り上げ,その意義,データセット,手法と技法の基本構成要素,課題,応用,今後のトレンドについて述べる。
関連論文リスト
- Multimodal Large Language Models: A Survey [36.06016060015404]
マルチモーダル言語モデルは、画像、テキスト、言語、音声、その他の異種性など、複数のデータタイプを統合する。
本稿では、マルチモーダルの概念を定義し、マルチモーダルアルゴリズムの歴史的展開を検討することから始める。
実用的なガイドが提供され、マルチモーダルモデルの技術的な側面に関する洞察を提供する。
最後に,マルチモーダルモデルの適用について検討し,開発に伴う課題について考察する。
論文 参考訳(メタデータ) (2023-11-22T05:15:12Z) - A Comprehensive Survey on Applications of Transformers for Deep Learning
Tasks [60.38369406877899]
Transformerは、シーケンシャルデータ内のコンテキスト関係を理解するために自己認識メカニズムを使用するディープニューラルネットワークである。
Transformerモデルは、入力シーケンス要素間の長い依存関係を処理し、並列処理を可能にする。
我々の調査では、トランスフォーマーベースのモデルのためのトップ5のアプリケーションドメインを特定します。
論文 参考訳(メタデータ) (2023-06-11T23:13:51Z) - Multimodality Representation Learning: A Survey on Evolution,
Pretraining and Its Applications [47.501121601856795]
マルチモダリティ表現学習は、異なるモダリティとそれらの相関から情報を埋め込む学習手法である。
異なるモダリティからのクロスモーダル相互作用と補完情報は、高度なモデルが任意のマルチモーダルタスクを実行するために不可欠である。
本調査では,深層学習型マルチモーダルアーキテクチャの進化と拡張に関する文献を報告する。
論文 参考訳(メタデータ) (2023-02-01T11:48:34Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [71.07658443380264]
様々なモダリティのデータを組み込んだマルチモーダル機械学習は、ますます人気のある研究分野になりつつある。
我々は、視覚、音声、テキストなど、各データフォーマットの共通点と特異点を分析し、Vision+Xの組み合わせによって分類された技術開発を提示する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Foundations and Recent Trends in Multimodal Machine Learning:
Principles, Challenges, and Open Questions [68.6358773622615]
本稿では,マルチモーダル機械学習の計算的基礎と理論的基礎について概説する。
本稿では,表現,アライメント,推論,生成,伝達,定量化という,6つの技術課題の分類法を提案する。
最近の技術的成果は、この分類のレンズを通して示され、研究者は新しいアプローチの類似点と相違点を理解することができる。
論文 参考訳(メタデータ) (2022-09-07T19:21:19Z) - DIME: Fine-grained Interpretations of Multimodal Models via Disentangled
Local Explanations [119.1953397679783]
我々は,マルチモーダルモデルの解釈における最先端化に注力する。
提案手法であるDIMEは,マルチモーダルモデルの高精度かつきめ細かな解析を可能にする。
論文 参考訳(メタデータ) (2022-03-03T20:52:47Z) - WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。
そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T12:25:21Z) - Recent Advances and Trends in Multimodal Deep Learning: A Review [9.11022096530605]
マルチモーダルディープラーニングは、様々なモーダルを使って情報を処理およびリンクできるモデルを作成することを目的としている。
本稿では,画像,ビデオ,テキスト,音声,身体ジェスチャー,表情,生理的信号など,多種類のモダリティに焦点を当てる。
様々なマルチモーダル深層学習応用のきめ細かい分類法が提案され、様々な応用をより深く研究している。
論文 参考訳(メタデータ) (2021-05-24T04:20:45Z) - Sequential Interpretability: Methods, Applications, and Future Direction
for Understanding Deep Learning Models in the Context of Sequential Data [1.8275108630751837]
本稿では,シーケンシャルデータを含む深層学習手法の解釈技術について概説する。
非逐次的手法との類似性を同定し、逐次的解釈可能性研究の現在の限界と今後の道について論じる。
論文 参考訳(メタデータ) (2020-04-27T00:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。