Fugu-MT 論文翻訳(概要): Explainability for Vision Foundation Models: A Survey

論文の概要: Explainability for Vision Foundation Models: A Survey

arxiv url: http://arxiv.org/abs/2501.12203v1
Date: Tue, 21 Jan 2025 15:18:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-22 19:37:19.699489
Title: Explainability for Vision Foundation Models: A Survey
Title（参考訳）: ビジョンファウンデーションモデルの説明可能性:サーベイ
Authors: Rémi Kazmierczak, Eloïse Berthier, Goran Frehse, Gianni Franchi,
Abstract要約: 基礎モデルは説明可能性領域において曖昧な位置を占める。基礎モデルは、その広範な一般化能力と創発的使用によって特徴づけられる。基礎モデルにXAIを統合する上での現在の研究で直面する課題について論じる。
参考スコア（独自算出の注目度）: 3.570403495760109
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As artificial intelligence systems become increasingly integrated into daily life, the field of explainability has gained significant attention. This trend is particularly driven by the complexity of modern AI models and their decision-making processes. The advent of foundation models, characterized by their extensive generalization capabilities and emergent uses, has further complicated this landscape. Foundation models occupy an ambiguous position in the explainability domain: their complexity makes them inherently challenging to interpret, yet they are increasingly leveraged as tools to construct explainable models. In this survey, we explore the intersection of foundation models and eXplainable AI (XAI) in the vision domain. We begin by compiling a comprehensive corpus of papers that bridge these fields. Next, we categorize these works based on their architectural characteristics. We then discuss the challenges faced by current research in integrating XAI within foundation models. Furthermore, we review common evaluation methodologies for these combined approaches. Finally, we present key observations and insights from our survey, offering directions for future research in this rapidly evolving field.
Abstract（参考訳）: 人工知能システムが日々の生活にますます統合されるにつれて、説明可能性の分野が注目されるようになった。このトレンドは特に、現代のAIモデルと意思決定プロセスの複雑さによって引き起こされる。基礎モデルの出現は、その広範な一般化能力と創発的利用によって特徴づけられ、この景観をさらに複雑にしている。基礎モデルは説明可能性領域において曖昧な位置を占めており、その複雑さは本質的に解釈が困難であるが、説明可能なモデルを構築するツールとしてますます活用されている。本稿では,視覚領域における基礎モデルとeXplainable AI(XAI)の交わりについて検討する。まず、これらの分野を橋渡しする包括的な論文のコーパスをコンパイルすることから始めます。次に、これらの作品をその建築的特徴に基づいて分類する。次に、基礎モデルにおけるXAIの統合に関する現在の研究で直面する課題について論じる。さらに,これらの組み合わせによる手法の共通評価手法について検討する。最後に、この急速に発展する分野における今後の研究の方向性について、我々の調査から重要な観察と洞察を提示する。

関連論文リスト

Vision Generalist Model: A Survey [87.49797517847132]
本稿では、ビジョンジェネラリストモデルの概要を概観し、その分野におけるその特性と能力について考察する。関連ドメインへの簡単な探索を行い、相互接続と潜在的なシナジーに光を当てます。
論文参考訳（メタデータ） (2025-06-11T17:23:41Z)
Unified Multimodal Understanding and Generation Models: Advances, Challenges, and Opportunities [22.476740954286836]
今後の研究を導くための総合的な調査を行う。既存の統一モデルについてレビューし、これらを3つの主要なアーキテクチャパラダイムに分類する。トークン化戦略,クロスモーダルアテンション,データなど,この新興分野に直面する重要な課題について論じる。
論文参考訳（メタデータ） (2025-05-05T11:18:03Z)
Brain-inspired Artificial Intelligence: A Comprehensive Review [15.964784631512414]
レビューは、現代のAIモデル、すなわち脳にインスパイアされた人工知能(BIAI)を形成する多様なデザインインスピレーションを探求する本稿では,BIAIアプローチを物理的構造に着想を得たモデルと人間行動に着想を得たモデルに分類する。さまざまなBIAIモデルが優れている実世界のアプリケーションについて検討し、その実用的メリットとデプロイメント上の課題を強調します。
論文参考訳（メタデータ） (2024-08-27T06:49:50Z)
AI Foundation Models in Remote Sensing: A Survey [6.036426846159163]
本稿では,リモートセンシング領域における基礎モデルの包括的調査を行う。コンピュータビジョンおよびドメイン固有タスクにおけるそれらの応用に基づいて、これらのモデルを分類する。これらの基盤モデルによって達成された、新しいトレンドと大きな進歩を強調します。
論文参考訳（メタデータ） (2024-08-06T22:39:34Z)
Generalist Multimodal AI: A Review of Architectures, Challenges and Opportunities [5.22475289121031]
マルチモーダルモデルは、人工知能の今後の進歩にとって重要な要素であると期待されている。この研究は、新しいアーキテクチャと特定の分類学を訓練することで、一般のマルチモーダルモデルに対する新たな視点を提供する。
論文参考訳（メタデータ） (2024-06-08T15:30:46Z)
Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond [101.15395503285804]
一般世界モデルは、人工知能(AGI)の実現への決定的な道のりを表現している本調査では,世界モデルの最新動向を包括的に調査する。我々は,世界モデルの課題と限界について検討し,今後の方向性について考察する。
論文参考訳（メタデータ） (2024-05-06T14:37:07Z)
On the Challenges and Opportunities in Generative AI [135.2754367149689]
現在の大規模生成AIモデルは、ドメイン間で広く採用されるのを妨げるいくつかの基本的な問題に十分対応していない、と我々は主張する。本研究は、現代の生成型AIパラダイムにおける重要な未解決課題を特定し、その能力、汎用性、信頼性をさらに向上するために取り組まなければならない。
論文参考訳（メタデータ） (2024-02-28T15:19:33Z)
A Survey of Reasoning with Foundation Models [235.7288855108172]
推論は、交渉、医療診断、刑事捜査など、様々な現実世界の環境において重要な役割を担っている。本稿では,推論に適応する基礎モデルを提案する。次に、基礎モデルにおける推論能力の出現の背後にある潜在的な将来方向を掘り下げる。
論文参考訳（メタデータ） (2023-12-17T15:16:13Z)
Foundation Models Meet Visualizations: Challenges and Opportunities [23.01218856618978]
本稿では,基礎モデル (VIS4FM) と基礎モデル (FM4VIS) を分割する。 VIS4FMでは、これらの複雑なモデルを理解し、精錬し、評価する上で、可視化の主要な役割を探求する。 FM4VISでは、基盤モデルがどのように可視化分野自体を前進させるかを強調した。
論文参考訳（メタデータ） (2023-10-09T14:57:05Z)
Foundational Models Defining a New Era in Vision: A Survey and Outlook [151.49434496615427]
視覚シーンの構成的性質を観察し、推論する視覚システムは、我々の世界を理解するのに不可欠である。モデルは、このようなモダリティと大規模なトレーニングデータとのギャップを埋めることを学び、コンテキスト推論、一般化、テスト時の迅速な機能を容易にした。このようなモデルの出力は、例えば、バウンディングボックスを設けて特定のオブジェクトをセグメント化したり、画像や映像シーンについて質問したり、言語命令でロボットの動作を操作することで対話的な対話を行うなど、リトレーニングすることなく、人為的なプロンプトによって変更することができる。
論文参考訳（メタデータ） (2023-07-25T17:59:18Z)
Causal Reasoning Meets Visual Representation Learning: A Prospective Study [117.08431221482638]
解釈可能性の欠如、堅牢性、分布外一般化が、既存の視覚モデルの課題となっている。人間レベルのエージェントの強い推論能力にインスパイアされた近年では、因果推論パラダイムの開発に多大な努力が注がれている。本稿では,この新興分野を包括的に概観し,注目し,議論を奨励し,新たな因果推論手法の開発の急激さを先導することを目的とする。
論文参考訳（メタデータ） (2022-04-26T02:22:28Z)
WenLan 2.0: Make AI Imagine via a Multimodal Foundation Model [74.4875156387271]
我々は,膨大なマルチモーダル(視覚的・テキスト的)データを事前学習した新しい基礎モデルを開発する。そこで本研究では,様々な下流タスクにおいて,最先端の成果が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T12:25:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。