論文の概要: Interpretability of Machine Learning: Recent Advances and Future
Prospects
- arxiv url: http://arxiv.org/abs/2305.00537v1
- Date: Sun, 30 Apr 2023 17:31:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 14:47:00.884706
- Title: Interpretability of Machine Learning: Recent Advances and Future
Prospects
- Title(参考訳): 機械学習の解釈可能性:最近の進歩と将来展望
- Authors: Lei Gao, and Ling Guan
- Abstract要約: 機械学習(ML)の普及は、様々なマルチメディアコンテンツの研究に前例のない関心を集めている。
現代のML、特にディープニューラルネットワーク(DNN)におけるブラックボックスの性質は、MLベースの表現学習において主要な課題となっている。
本稿では,MLの解釈可能性に関する最近の進歩と今後の展望について述べる。
- 参考スコア(独自算出の注目度): 21.68362950922772
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The proliferation of machine learning (ML) has drawn unprecedented interest
in the study of various multimedia contents such as text, image, audio and
video, among others. Consequently, understanding and learning ML-based
representations have taken center stage in knowledge discovery in intelligent
multimedia research and applications. Nevertheless, the black-box nature of
contemporary ML, especially in deep neural networks (DNNs), has posed a primary
challenge for ML-based representation learning. To address this black-box
problem, the studies on interpretability of ML have attracted tremendous
interests in recent years. This paper presents a survey on recent advances and
future prospects on interpretability of ML, with several application examples
pertinent to multimedia computing, including text-image cross-modal
representation learning, face recognition, and the recognition of objects. It
is evidently shown that the study of interpretability of ML promises an
important research direction, one which is worth further investment in.
- Abstract(参考訳): 機械学習(ML)の普及は、テキスト、画像、オーディオ、ビデオなど、様々なマルチメディアコンテンツの研究に前例のない関心を集めている。
その結果、MLに基づく表現の理解と学習は、インテリジェントなマルチメディア研究と応用において、知識発見の中心を成している。
それでも、特にディープニューラルネットワーク(DNN)における現代MLのブラックボックスの性質は、MLベースの表現学習において大きな課題となっている。
このブラックボックス問題に対処するため、MLの解釈可能性の研究は近年、大きな関心を集めている。
本稿では,mlの解釈可能性に関する最近の進歩と今後の展望について,テキスト-画像クロスモーダル表現学習,顔認識,オブジェクト認識など,マルチメディアコンピューティングに関連するいくつかの応用例を紹介する。
MLの解釈可能性の研究は、さらなる投資に値する重要な研究方向性を約束していることが明らかである。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できる
この研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。
本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文 参考訳(メタデータ) (2024-07-17T20:01:21Z) - Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education [13.87944568193996]
MLLM(Multimodal Large Language Models)は、テキスト、音声、視覚入力を含むマルチモーダルデータを処理できる。
本稿では,科学教育の中心的な側面におけるMLLMの変革的役割について,模範的な革新的な学習シナリオを提示することによって考察する。
論文 参考訳(メタデータ) (2024-01-01T18:11:43Z) - A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。
本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文 参考訳(メタデータ) (2023-06-23T15:21:52Z) - Lost in Translation: Reimagining the Machine Learning Life Cycle in
Education [12.802237736747077]
機械学習(ML)技術は、教育においてますます普及している。
ML技術が長年の教育原則と目標をどのように支えているかを調べる必要がある。
本研究では,教育専門家へのインタビューから得られた質的な洞察をもとに,この複雑な景観を考察した。
論文 参考訳(メタデータ) (2022-09-08T17:14:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。