Fugu-MT 論文翻訳(概要): AiSciVision: A Framework for Specializing Large Multimodal Models in Scientific Image Classification

論文の概要: AiSciVision: A Framework for Specializing Large Multimodal Models in Scientific Image Classification

arxiv url: http://arxiv.org/abs/2410.21480v1
Date: Mon, 28 Oct 2024 19:35:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:41.569124
Title: AiSciVision: A Framework for Specializing Large Multimodal Models in Scientific Image Classification
Title（参考訳）: AiSciVision:科学画像分類における大規模マルチモーダルモデルの特化フレームワーク
Authors: Brendan Hogan, Anmol Kabra, Felipe Siqueira Pacheco, Laura Greenstreet, Joshua Fan, Aaron Ferber, Marta Ummus, Alecsander Brito, Olivia Graham, Lillian Aoki, Drew Harvell, Alex Flecker, Carla Gomes,
Abstract要約: 対話型研究パートナーにLMM(Large Multimodal Models)を専門とするフレームワークであるAiSciVisionを紹介する。私たちのフレームワークでは、Visual Retrieval-Augmented Generation (VisRAG) と、エージェントワークフローで使用されるドメイン固有のツールの2つの重要なコンポーネントを使用します。 AiSciVisionを3つの実世界の科学的画像分類データセット(養殖池、ウナギ、ソーラーパネル)で評価した。
参考スコア（独自算出の注目度）: 2.4515373478215343
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Trust and interpretability are crucial for the use of Artificial Intelligence (AI) in scientific research, but current models often operate as black boxes offering limited transparency and justifications for their outputs. We introduce AiSciVision, a framework that specializes Large Multimodal Models (LMMs) into interactive research partners and classification models for image classification tasks in niche scientific domains. Our framework uses two key components: (1) Visual Retrieval-Augmented Generation (VisRAG) and (2) domain-specific tools utilized in an agentic workflow. To classify a target image, AiSciVision first retrieves the most similar positive and negative labeled images as context for the LMM. Then the LMM agent actively selects and applies tools to manipulate and inspect the target image over multiple rounds, refining its analysis before making a final prediction. These VisRAG and tooling components are designed to mirror the processes of domain experts, as humans often compare new data to similar examples and use specialized tools to manipulate and inspect images before arriving at a conclusion. Each inference produces both a prediction and a natural language transcript detailing the reasoning and tool usage that led to the prediction. We evaluate AiSciVision on three real-world scientific image classification datasets: detecting the presence of aquaculture ponds, diseased eelgrass, and solar panels. Across these datasets, our method outperforms fully supervised models in low and full-labeled data settings. AiSciVision is actively deployed in real-world use, specifically for aquaculture research, through a dedicated web application that displays and allows the expert users to converse with the transcripts. This work represents a crucial step toward AI systems that are both interpretable and effective, advancing their use in scientific research and scientific discovery.
Abstract（参考訳）: 信頼と解釈性は、科学研究における人工知能(AI)の使用に不可欠であるが、現在のモデルは、しばしばブラックボックスとして機能し、その出力に対して限られた透明性と正当化を提供する。我々は,大規模マルチモーダルモデル(LMM)を専門とするフレームワークであるAiSciVisionを,ニッチな科学領域における画像分類タスクのための対話型研究パートナーと分類モデルに導入する。フレームワークは,(1)ビジュアル検索・拡張生成(VisRAG)と(2)エージェントワークフローで使用されるドメイン固有ツールの2つのキーコンポーネントを使用する。対象画像を分類するために、AiSciVisionはまず最もよく似た正と負のラベル付き画像をLMMのコンテキストとして検索する。次に、LMMエージェントは、最終的な予測を行う前に、対象画像を複数のラウンドで操作し、検査するためのツールを積極的に選択し、適用する。これらのVisRAGとツールコンポーネントは、ドメインの専門家のプロセスを反映するように設計されている。それぞれの推論は、予測に繋がった推論とツールの使用法を詳述した自然言語の書き起こしの両方を生成する。 AiSciVisionを3つの実世界の科学的画像分類データセットで評価した。これらのデータセット全体で、我々の手法は、低ラベルとフルラベルのデータ設定で完全に教師付きモデルより優れています。 AiSciVisionは、特に養殖研究のために、専門家のユーザが書き起こしと会話できる専用のWebアプリケーションを通じて、現実世界で積極的にデプロイされている。この研究は、解釈可能で効果的なAIシステムへの重要なステップであり、科学研究や科学的発見での利用を推進している。

関連論文リスト

FakeScope: Large Multimodal Expert Model for Transparent AI-Generated Image Forensics [66.14786900470158]
本稿では,AIによる画像鑑定に適した専門家マルチモーダルモデル(LMM)であるFakeScopeを提案する。 FakeScopeはAI合成画像を高精度に識別し、リッチで解釈可能なクエリ駆動の法医学的な洞察を提供する。 FakeScopeは、クローズドエンドとオープンエンドの両方の法医学的シナリオで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-03-31T16:12:48Z)
Masked Image Modeling: A Survey [73.21154550957898]
マスク付き画像モデリングは、コンピュータビジョンにおける強力な自己教師付き学習技術として登場した。我々は近年,分類学を構築し,最も顕著な論文をレビューしている。我々は,最も人気のあるデータセット上で,様々なマスク付き画像モデリング手法の性能評価結果を集約する。
論文参考訳（メタデータ） (2024-08-13T07:27:02Z)
Probing Fine-Grained Action Understanding and Cross-View Generalization of Foundation Models [13.972809192907931]
ファンデーションモデル(FM)は、広いデータセットでトレーニングされた大規模なニューラルネットワークである。ビデオにおける人間の活動認識は、異なるアーキテクチャ間の競争によって駆動されるFMによって進歩している。本稿では,視線変化が人体活動認識の微粒化における異なるFMに与える影響を実験的に評価する。
論文参考訳（メタデータ） (2024-07-22T12:59:57Z)
MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
このデータセットには、スキーマ図、シミュレーション画像、マクロ/顕微鏡写真、実験的可視化などの図が含まれている。我々は,6つのプロプライエタリモデルと10以上のオープンソースモデルを評価し,科学的フィギュアキャプションと複数選択質問のベンチマークを開発した。データセットとベンチマークは、さらなる研究をサポートするためにリリースされる予定だ。
論文参考訳（メタデータ） (2024-07-06T00:40:53Z)
Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。 FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文参考訳（メタデータ） (2024-03-26T06:04:50Z)
SciMMIR: Benchmarking Scientific Multi-modal Information Retrieval [64.03631654052445]
科学領域内の画像テキストペアリングにおけるMMIR性能を評価するための最新のベンチマークは、顕著なギャップを示している。オープンアクセス用紙コレクションを利用した特殊な科学的MMIRベンチマークを開発する。このベンチマークは、科学的文書に詳細なキャプションのある数字や表から抽出された、530Kの精巧にキュレートされた画像テキストペアからなる。
論文参考訳（メタデータ） (2024-01-24T14:23:12Z)
SeeBel: Seeing is Believing [0.9790236766474201]
本稿では,全画像のセグメンテーションにおけるデータセット統計とAI性能を比較するための3つの可視化手法を提案する。我々のプロジェクトは、画像の注意重みを可視化することで、セグメンテーションのための訓練されたAIモデルの解釈可能性をさらに高めようとしている。我々は,コンピュータビジョンとAI領域における可視化ツールの有効性を検討するために,実際のユーザを対象に調査を行うことを提案する。
論文参考訳（メタデータ） (2023-12-18T05:11:00Z)
Multimodal Deep Learning for Scientific Imaging Interpretation [0.0]
本研究では,SEM(Scanning Electron Microscopy)画像と人間のような相互作用を言語的にエミュレートし,評価するための新しい手法を提案する。本稿では,ピアレビュー記事から収集したテキストデータとビジュアルデータの両方から洞察を抽出する。我々のモデル (GlassLLaVA) は, 正確な解釈, 重要な特徴の同定, 未確認のSEM画像の欠陥の検出に優れる。
論文参考訳（メタデータ） (2023-09-21T20:09:22Z)
StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。本研究は,各種データセットを対象とした総合的な実験を含む。
論文参考訳（メタデータ） (2023-08-20T12:43:52Z)
The State of the Art in Enhancing Trust in Machine Learning Models with the Use of Visualizations [0.0]
機械学習(ML)モデルは、医学、バイオインフォマティクス、その他の科学など、様々な分野の複雑な応用で使われている。しかし、ブラックボックスの性質のため、それらが提供する結果を理解し、信頼することは難しいこともある。これにより、MLモデルの信頼性向上に関連する信頼性の高い視覚化ツールの需要が増加した。本稿では,インタラクティブな可視化によるMLモデルの信頼性向上について,STAR(State-of-the-Art Report)を提案する。
論文参考訳（メタデータ） (2022-12-22T14:29:43Z)
UViM: A Unified Modeling Approach for Vision with Learned Guiding Codes [91.24112204588353]
我々は、幅広いコンピュータビジョンタスクをモデル化できる統一的なアプローチであるUViMを紹介する。以前のモデルとは対照的に、UViMは全てのタスクに対して同じ機能を持つ。多様な3つの視覚課題に対するUViMの有効性を実証する。
論文参考訳（メタデータ） (2022-05-20T17:47:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。