論文の概要: A Tool Bottleneck Framework for Clinically-Informed and Interpretable Medical Image Understanding
- arxiv url: http://arxiv.org/abs/2512.21414v1
- Date: Wed, 24 Dec 2025 20:30:01 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 11:54:52.666588
- Title: A Tool Bottleneck Framework for Clinically-Informed and Interpretable Medical Image Understanding
- Title(参考訳): 臨床インフォームド・解釈可能な医用画像理解のためのツール・ボトルネック・フレームワーク
- Authors: Christina Liu, Alan Q. Wang, Joy Hsu, Jiajun Wu, Ehsan Adeli,
- Abstract要約: TBF(Tool Bottleneck Framework)と呼ばれる医用画像理解のためのツール・ユース・フレームワークを提案する。
ある画像とタスクに対して、TBFは市販の医療用VLMを活用して、それぞれが臨床的に関連のある特徴を抽出するツールボックスからツールを選択する。
テキストベースの構成の代わりに、これらのツールはTBMによって構成され、最終予測を出力する前にニューラルネットワークを使用してツール出力を計算および融合する。
- 参考スコア(独自算出の注目度): 22.04316562634578
- License:
- Abstract: Recent tool-use frameworks powered by vision-language models (VLMs) improve image understanding by grounding model predictions with specialized tools. Broadly, these frameworks leverage VLMs and a pre-specified toolbox to decompose the prediction task into multiple tool calls (often deep learning models) which are composed to make a prediction. The dominant approach to composing tools is using text, via function calls embedded in VLM-generated code or natural language. However, these methods often perform poorly on medical image understanding, where salient information is encoded as spatially-localized features that are difficult to compose or fuse via text alone. To address this, we propose a tool-use framework for medical image understanding called the Tool Bottleneck Framework (TBF), which composes VLM-selected tools using a learned Tool Bottleneck Model (TBM). For a given image and task, TBF leverages an off-the-shelf medical VLM to select tools from a toolbox that each extract clinically-relevant features. Instead of text-based composition, these tools are composed by the TBM, which computes and fuses the tool outputs using a neural network before outputting the final prediction. We propose a simple and effective strategy for TBMs to make predictions with any arbitrary VLM tool selection. Overall, our framework not only improves tool-use in medical imaging contexts, but also yields more interpretable, clinically-grounded predictors. We evaluate TBF on tasks in histopathology and dermatology and find that these advantages enable our framework to perform on par with or better than deep learning-based classifiers, VLMs, and state-of-the-art tool-use frameworks, with particular gains in data-limited regimes. Our code is available at https://github.com/christinaliu2020/tool-bottleneck-framework.
- Abstract(参考訳): 視覚言語モデル(VLM)を利用した最近のツール利用フレームワークは、特殊なツールを用いたモデル予測を基礎として、画像理解を改善している。
これらのフレームワークは、VLMと予め定義されたツールボックスを利用して、予測タスクを複数のツールコール(しばしばディープラーニングモデル)に分解し、予測を行う。
ツール作成における主要なアプローチは、VLM生成コードや自然言語に埋め込まれた関数呼び出しを通じて、テキストを使用することである。
しかし,これらの手法は医用画像の理解にはあまり役に立たないことが多く,テキストだけでは作曲や融合が困難である空間的局所化特徴として有意な情報を符号化する。
そこで本研究では,学習したツール・ボトルネック・モデル(TBM)を用いてVLM選択ツールを構成する,TBF(Tool Bottleneck Framework)と呼ばれる医用画像理解のためのツール・ユース・フレームワークを提案する。
ある画像とタスクに対して、TBFは市販の医療用VLMを活用して、それぞれが臨床的に関連のある特徴を抽出するツールボックスからツールを選択する。
テキストベースの構成の代わりに、これらのツールはTBMによって構成され、最終予測を出力する前にニューラルネットワークを使用してツール出力を計算および融合する。
我々は、任意のVLMツールの選択で予測を行うためのTBMの簡易かつ効果的な戦略を提案する。
全体として、我々のフレームワークは、医療画像の文脈におけるツールの使用を改善するだけでなく、解釈可能な臨床応用予測器も提供します。
組織学および皮膚学におけるタスクにおけるTBFを評価し,これらの利点により,データ制限体制において,ディープラーニングベースの分類器やVLM,最先端のツール使用フレームワークと同等以上のパフォーマンスを実現できることが確認された。
私たちのコードはhttps://github.com/christinaliu2020/tool-bottleneck-framework.comで公開されています。
関連論文リスト
- PhysToolBench: Benchmarking Physical Tool Understanding for MLLMs [46.62285836344724]
MLLMによる物理ツールの理解度を評価するための最初のベンチマークであるPhysToolBenchを紹介する。
我々のベンチマークは、1000以上の画像テキストペアからなるVisual Question Answering (VQA)データセットとして構成されている。
1)ツール認識:ツールの一次機能を認識する必要がある。
(2) ツール理解: ツール操作の根底にある原則を理解する能力をテストする。
論文 参考訳(メタデータ) (2025-10-10T16:10:45Z) - LLM With Tools: A Survey [0.0]
本稿では,LCMに外部ツールの使用を教える領域における方法論,問題点,展開について述べる。
ユーザ命令を実行可能なプランにマッピングする一連の関数によってガイドされるツール統合のための標準化パラダイムを導入する。
調査の結果,ツール起動タイミング,選択精度,堅牢な推論プロセスの必要性など,さまざまな課題が明らかになった。
論文 参考訳(メタデータ) (2024-09-24T14:08:11Z) - Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。
以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。
LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文 参考訳(メタデータ) (2024-05-26T11:40:58Z) - Towards Completeness-Oriented Tool Retrieval for Large Language Models [60.733557487886635]
現実世界のシステムは多種多様なツールを組み込んでおり、全てのツールを大規模言語モデルに入力することは不可能である。
既存のツール検索手法は主にユーザクエリとツール記述間のセマンティックマッチングに焦点を当てている。
我々は,ユーザクエリとツール記述のセマンティックな類似性だけでなく,ツールの協調的情報も考慮した,新しいモデル診断型協調学習型ツール検索手法であるCOLTを提案する。
論文 参考訳(メタデータ) (2024-05-25T06:41:23Z) - Look Before You Leap: Towards Decision-Aware and Generalizable Tool-Usage for Large Language Models [26.28459880766842]
意思決定・汎用ツール・ユース・フレームワーク(DEER)を提案する。
具体的には、まず、自動生成パイプラインを介して、複数の決定ブランチを持つツール使用サンプルを構築します。
提案するDEERは, 各種データセットのベースラインよりも効果的で, 著しく優れる。
論文 参考訳(メタデータ) (2024-02-26T16:11:03Z) - MetaTool Benchmark for Large Language Models: Deciding Whether to Use Tools and Which to Use [79.87054552116443]
大規模言語モデル(LLM)は、その印象的な自然言語処理(NLP)能力のために大きな注目を集めている。
このベンチマークは、LLMがツールの使用意識を持ち、ツールを正しく選択できるかどうかを評価するためのものだ。
8つの人気のあるLCMを巻き込んだ実験を行い、その大半は依然として効果的にツールを選択するのに苦労していることがわかった。
論文 参考訳(メタデータ) (2023-10-04T19:39:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。