Fugu-MT 論文翻訳(概要): Interpretability of Machine Learning: Recent Advances and Future Prospects

論文の概要: Interpretability of Machine Learning: Recent Advances and Future Prospects

arxiv url: http://arxiv.org/abs/2305.00537v1
Date: Sun, 30 Apr 2023 17:31:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-02 14:47:00.884706
Title: Interpretability of Machine Learning: Recent Advances and Future Prospects
Title（参考訳）: 機械学習の解釈可能性:最近の進歩と将来展望
Authors: Lei Gao, and Ling Guan
Abstract要約: 機械学習(ML)の普及は、様々なマルチメディアコンテンツの研究に前例のない関心を集めている。現代のML、特にディープニューラルネットワーク(DNN)におけるブラックボックスの性質は、MLベースの表現学習において主要な課題となっている。本稿では,MLの解釈可能性に関する最近の進歩と今後の展望について述べる。
参考スコア（独自算出の注目度）: 21.68362950922772
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The proliferation of machine learning (ML) has drawn unprecedented interest in the study of various multimedia contents such as text, image, audio and video, among others. Consequently, understanding and learning ML-based representations have taken center stage in knowledge discovery in intelligent multimedia research and applications. Nevertheless, the black-box nature of contemporary ML, especially in deep neural networks (DNNs), has posed a primary challenge for ML-based representation learning. To address this black-box problem, the studies on interpretability of ML have attracted tremendous interests in recent years. This paper presents a survey on recent advances and future prospects on interpretability of ML, with several application examples pertinent to multimedia computing, including text-image cross-modal representation learning, face recognition, and the recognition of objects. It is evidently shown that the study of interpretability of ML promises an important research direction, one which is worth further investment in.
Abstract（参考訳）: 機械学習(ML)の普及は、テキスト、画像、オーディオ、ビデオなど、様々なマルチメディアコンテンツの研究に前例のない関心を集めている。その結果、MLに基づく表現の理解と学習は、インテリジェントなマルチメディア研究と応用において、知識発見の中心を成している。それでも、特にディープニューラルネットワーク(DNN)における現代MLのブラックボックスの性質は、MLベースの表現学習において大きな課題となっている。このブラックボックス問題に対処するため、MLの解釈可能性の研究は近年、大きな関心を集めている。本稿では,mlの解釈可能性に関する最近の進歩と今後の展望について,テキスト-画像クロスモーダル表現学習,顔認識,オブジェクト認識など,マルチメディアコンピューティングに関連するいくつかの応用例を紹介する。 MLの解釈可能性の研究は、さらなる投資に値する重要な研究方向性を約束していることが明らかである。

関連論文リスト

Multimodal Large Language Models Meet Multimodal Emotion Recognition and Reasoning: A Survey [40.20905051575087]
AI for Scienceでは、マルチモーダルな感情認識と推論が急速に成長するフロンティアとなっている。本論文は,マルチモーダル感情認識と推論によるMLLMの交点を包括的に調査する最初の試みである。
論文参考訳（メタデータ） (2025-09-29T06:13:14Z)
MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
How do Large Language Models Understand Relevance? A Mechanistic Interpretability Perspective [64.00022624183781]
大規模言語モデル(LLM)は、関連性を評価し、情報検索(IR)タスクをサポートする。メカニスティック・インタプリタビリティのレンズを用いて,異なるLLMモジュールが関係判断にどのように寄与するかを検討する。
論文参考訳（メタデータ） (2025-04-10T16:14:55Z)
Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models [52.569132872560814]
マルチモーダルな大言語モデル(MLLM)は、テキストとビジョンの理解を深め、大きなブレークスルーを達成した。しかし、現在のMLLMは、マルチモーダルな知識推論において、これらのモダリティを効果的に統合する上での課題に直面している。 MLLMにおけるマルチモーダル知識推論における一貫性劣化の程度を解析・比較する。
論文参考訳（メタデータ） (2025-03-03T09:01:51Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文参考訳（メタデータ） (2024-08-02T15:14:53Z)
Retrieval-Enhanced Machine Learning: Synthesis and Opportunities [60.34182805429511]
検索エンハンスメントは機械学習(ML)の幅広い範囲に拡張できるこの研究は、MLの様々な領域の文献を、現在の文献から欠落している一貫した表記で合成することで、このパラダイムの正式なフレームワークであるRetrieval-Enhanced Machine Learning (REML)を導入する。本研究の目的は、様々な分野の研究者に対して、検索強化モデルの包括的、正式に構造化された枠組みを付与し、学際的な将来の研究を促進することである。
論文参考訳（メタデータ） (2024-07-17T20:01:21Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Incorporating Visual Experts to Resolve the Information Loss in Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-01-06T02:02:34Z)
Taking the Next Step with Generative Artificial Intelligence: The Transformative Role of Multimodal Large Language Models in Science Education [13.87944568193996]
MLLM(Multimodal Large Language Models)は、テキスト、音声、視覚入力を含むマルチモーダルデータを処理できる。本稿では,科学教育の中心的な側面におけるMLLMの変革的役割について,模範的な革新的な学習シナリオを提示することによって考察する。
論文参考訳（メタデータ） (2024-01-01T18:11:43Z)
A Survey on Multimodal Large Language Models [71.63375558033364]
GPT-4Vで表されるマルチモーダル大言語モデル(MLLM)は、新たな研究ホットスポットとなっている。本稿では,MLLMの最近の進歩を追跡・要約することを目的とする。
論文参考訳（メタデータ） (2023-06-23T15:21:52Z)
Interpretability and accessibility of machine learning in selected food processing, agriculture and health applications [0.0]
MLベースのシステムの解釈可能性の欠如は、これらの強力なアルゴリズムの普及の大きな障害である。自動モデル設計によるMLアクセシビリティ向上のために、新たなテクニックが登場している。本稿では,グローバル問題における機械学習の解釈可能性とアクセシビリティ向上に向けた取り組みについて概説する。
論文参考訳（メタデータ） (2022-11-30T02:44:13Z)
Lost in Translation: Reimagining the Machine Learning Life Cycle in Education [12.802237736747077]
機械学習(ML)技術は、教育においてますます普及している。 ML技術が長年の教育原則と目標をどのように支えているかを調べる必要がある。本研究では,教育専門家へのインタビューから得られた質的な洞察をもとに,この複雑な景観を考察した。
論文参考訳（メタデータ） (2022-09-08T17:14:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。