論文の概要: LangXAI: Integrating Large Vision Models for Generating Textual
Explanations to Enhance Explainability in Visual Perception Tasks
- arxiv url: http://arxiv.org/abs/2402.12525v1
- Date: Mon, 19 Feb 2024 20:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:11:22.277517
- Title: LangXAI: Integrating Large Vision Models for Generating Textual
Explanations to Enhance Explainability in Visual Perception Tasks
- Title(参考訳): LangXAI:視覚的知覚課題における説明可能性を高めるためのテキスト説明生成のための大規模視覚モデルの統合
- Authors: Truong Thanh Hung Nguyen, Tobias Clement, Phuc Truong Loc Nguyen, Nils
Kemmerzell, Van Binh Truong, Vo Thanh Khang Nguyen, Mohamed Abdelaal, Hung
Cao
- Abstract要約: LangXAIは、説明可能な人工知能(XAI)と高度な視覚モデルを統合して、視覚認識タスクの説明を生成するフレームワークである。
LangXAIはこれを、分類、オブジェクト検出、セマンティックセグメンテーションモデルの出力をエンドユーザーに提供することによって解決する。
予備的な結果は、タスク間でBERTScoreの高いLangXAIの強化された可視性を示している。
- 参考スコア(独自算出の注目度): 2.5966310291726007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LangXAI is a framework that integrates Explainable Artificial Intelligence
(XAI) with advanced vision models to generate textual explanations for visual
recognition tasks. Despite XAI advancements, an understanding gap persists for
end-users with limited domain knowledge in artificial intelligence and computer
vision. LangXAI addresses this by furnishing text-based explanations for
classification, object detection, and semantic segmentation model outputs to
end-users. Preliminary results demonstrate LangXAI's enhanced plausibility,
with high BERTScore across tasks, fostering a more transparent and reliable AI
framework on vision tasks for end-users.
- Abstract(参考訳): LangXAIは、説明可能な人工知能(XAI)と高度な視覚モデルを統合し、視覚認識タスクのためのテキスト説明を生成するフレームワークである。
XAIの進歩にもかかわらず、人工知能とコンピュータビジョンにおいて限られたドメイン知識を持つエンドユーザには理解ギャップが持続する。
LangXAIはこれを、分類、オブジェクト検出、セマンティックセグメンテーションモデルの出力をエンドユーザーに提供することによって解決する。
予備的な結果は、タスク間で高いbertscoreを持ち、エンドユーザの視覚タスクに関するより透明で信頼性の高いaiフレームワークを育むlangxaiの信頼性の向上を示している。
関連論文リスト
- Found in Translation: semantic approaches for enhancing AI interpretability in face verification [0.4222205362654437]
本研究は,XAIフレームワークに意味概念を統合することで,モデル出力と人間の理解の包括的ギャップを埋めることにより,これまでの研究を拡張した。
ユーザが選択した顔のランドマークによって定義された意味的特徴を用いて,グローバルな説明とローカルな説明を組み合わせた新しいアプローチを提案する。
結果は、セマンティックベースのアプローチ、特に最も詳細なセットは、従来の手法よりも、モデル決定をよりきめ細やかな理解を提供することを示している。
論文 参考訳(メタデータ) (2025-01-06T08:34:53Z) - Aguvis: Unified Pure Vision Agents for Autonomous GUI Interaction [69.57190742976091]
自律型GUIエージェントのための統合視覚ベースのフレームワークであるAguvisを紹介する。
提案手法は,画像に基づく観察と,自然言語の接地命令を視覚要素に活用する。
これまでの作業の限界に対処するため、モデル内に明確な計画と推論を統合する。
論文 参考訳(メタデータ) (2024-12-05T18:58:26Z) - X-Prompt: Towards Universal In-Context Image Generation in Auto-Regressive Vision Language Foundation Models [77.98981338798383]
インコンテキスト生成は、大規模言語モデル(LLM)のオープンタスク一般化機能の重要なコンポーネントである。
X-Promptは純粋に自動回帰型の大規模言語モデルであり、画像生成タスクと見えないタスクの両方で、幅広いパフォーマンスを提供するように設計されている。
テキストと画像の予測を統一したトレーニングタスクにより、X-Promptは、テキスト内の例からタスク認識を強化して、一般的な画像生成を処理できる。
論文 参考訳(メタデータ) (2024-12-02T18:59:26Z) - VALE: A Multimodal Visual and Language Explanation Framework for Image Classifiers using eXplainable AI and Language Models [0.0]
VALE Visual and Language Explanation という新しいフレームワークを提案する。
VALEは説明可能なAI技術と高度な言語モデルを統合し、包括的な説明を提供する。
本稿では,画像分類タスクのためのVALEフレームワークの試験的検討を行う。
論文 参考訳(メタデータ) (2024-08-23T03:02:11Z) - XEdgeAI: A Human-centered Industrial Inspection Framework with Data-centric Explainable Edge AI Approach [2.0209172586699173]
本稿では,新しいXAI統合視覚品質検査フレームワークを提案する。
我々のフレームワークはXAIとLarge Vision Language Modelを組み込んで人間中心の解釈可能性を提供する。
このアプローチは、重要な産業アプリケーションに信頼性と解釈可能なAIツールを広く採用する道を開くものだ。
論文 参考訳(メタデータ) (2024-07-16T14:30:24Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。
我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。
提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文 参考訳(メタデータ) (2024-03-14T14:02:01Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - A Comprehensive Survey of AI-Generated Content (AIGC): A History of
Generative AI from GAN to ChatGPT [63.58711128819828]
ChatGPTおよびその他の生成AI(GAI)技術は、人工知能生成コンテンツ(AIGC)のカテゴリに属している。
AIGCの目標は、コンテンツ作成プロセスをより効率的かつアクセスしやすくし、高品質なコンテンツをより高速に生産できるようにすることである。
論文 参考訳(メタデータ) (2023-03-07T20:36:13Z) - mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal
Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。
画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文 参考訳(メタデータ) (2022-05-24T11:52:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。