論文の概要: LangXAI: Integrating Large Vision Models for Generating Textual
Explanations to Enhance Explainability in Visual Perception Tasks
- arxiv url: http://arxiv.org/abs/2402.12525v1
- Date: Mon, 19 Feb 2024 20:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:11:22.277517
- Title: LangXAI: Integrating Large Vision Models for Generating Textual
Explanations to Enhance Explainability in Visual Perception Tasks
- Title(参考訳): LangXAI:視覚的知覚課題における説明可能性を高めるためのテキスト説明生成のための大規模視覚モデルの統合
- Authors: Truong Thanh Hung Nguyen, Tobias Clement, Phuc Truong Loc Nguyen, Nils
Kemmerzell, Van Binh Truong, Vo Thanh Khang Nguyen, Mohamed Abdelaal, Hung
Cao
- Abstract要約: LangXAIは、説明可能な人工知能(XAI)と高度な視覚モデルを統合して、視覚認識タスクの説明を生成するフレームワークである。
LangXAIはこれを、分類、オブジェクト検出、セマンティックセグメンテーションモデルの出力をエンドユーザーに提供することによって解決する。
予備的な結果は、タスク間でBERTScoreの高いLangXAIの強化された可視性を示している。
- 参考スコア(独自算出の注目度): 2.5966310291726007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LangXAI is a framework that integrates Explainable Artificial Intelligence
(XAI) with advanced vision models to generate textual explanations for visual
recognition tasks. Despite XAI advancements, an understanding gap persists for
end-users with limited domain knowledge in artificial intelligence and computer
vision. LangXAI addresses this by furnishing text-based explanations for
classification, object detection, and semantic segmentation model outputs to
end-users. Preliminary results demonstrate LangXAI's enhanced plausibility,
with high BERTScore across tasks, fostering a more transparent and reliable AI
framework on vision tasks for end-users.
- Abstract(参考訳): LangXAIは、説明可能な人工知能(XAI)と高度な視覚モデルを統合し、視覚認識タスクのためのテキスト説明を生成するフレームワークである。
XAIの進歩にもかかわらず、人工知能とコンピュータビジョンにおいて限られたドメイン知識を持つエンドユーザには理解ギャップが持続する。
LangXAIはこれを、分類、オブジェクト検出、セマンティックセグメンテーションモデルの出力をエンドユーザーに提供することによって解決する。
予備的な結果は、タスク間で高いbertscoreを持ち、エンドユーザの視覚タスクに関するより透明で信頼性の高いaiフレームワークを育むlangxaiの信頼性の向上を示している。
関連論文リスト
- See then Tell: Enhancing Key Information Extraction with Vision Grounding [54.061203106565706]
STNet(See then Tell Net)は,視覚基盤の正確な答えを提供するために設計された,新しいエンドツーエンドモデルである。
モデルの可視性を高めるため、広範囲に構造化されたテーブル認識データセットを収集する。
論文 参考訳(メタデータ) (2024-09-29T06:21:05Z) - VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models [0.0]
VALE Visual and Language Explanation という新しいフレームワークを提案する。
VALEは説明可能なAI技術と高度な言語モデルを統合し、包括的な説明を提供する。
本稿では,画像分類タスクのためのVALEフレームワークの試験的検討を行う。
論文 参考訳(メタデータ) (2024-08-23T03:02:11Z) - XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach [2.0209172586699173]
本稿では,新しいXAI統合視覚品質検査フレームワークを提案する。
我々のフレームワークはXAIとLarge Vision Language Modelを組み込んで人間中心の解釈可能性を提供する。
このアプローチは、重要な産業アプリケーションに信頼性と解釈可能なAIツールを広く採用する道を開くものだ。
論文 参考訳(メタデータ) (2024-07-16T14:30:24Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。
我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。
提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文 参考訳(メタデータ) (2024-03-14T14:02:01Z) - AI-Generated Images as Data Source: The Dawn of Synthetic Era [61.879821573066216]
生成AIは、現実世界の写真によく似た合成画像を作成する可能性を解き放った。
本稿では、これらのAI生成画像を新しいデータソースとして活用するという革新的な概念を探求する。
実際のデータとは対照的に、AI生成データには、未整合のアブリダンスやスケーラビリティなど、大きなメリットがある。
論文 参考訳(メタデータ) (2023-10-03T06:55:19Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Vision-Language Models in Remote Sensing: Current Progress and Future Trends [25.017685538386548]
視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。
視覚言語モデルは、RS画像の視覚的認識を超えて、意味的関係をモデル化し、画像の自然言語記述を生成することができる。
本稿では,リモートセンシングにおける視覚言語モデルの研究を包括的にレビューする。
論文 参考訳(メタデータ) (2023-05-09T19:17:07Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。