論文の概要: Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy
- arxiv url: http://arxiv.org/abs/2602.23088v1
- Date: Thu, 26 Feb 2026 15:10:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.739362
- Title: Cytoarchitecture in Words: Weakly Supervised Vision-Language Modeling for Human Brain Microscopy
- Title(参考訳): 単語の細胞構造:人間の脳顕微鏡における視覚・言語モデリングの弱さ
- Authors: Matthew Sutton, Katrin Amunts, Timo Dickscheid, Christian Schiffer,
- Abstract要約: 本稿では,ラベルを通してのみ画像とテキストをリンクすることで,画像から意味のあるキャプションを生成するラベル経由の手法を提案する。
57領域にわたって、得られた方法は、可塑性領域レベルの記述を生成し、未確認領域の明示的な拒絶を通じてオープンセットの使用をサポートする。
- 参考スコア(独自算出の注目度): 1.7429354559347476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Foundation models increasingly offer potential to support interactive, agentic workflows that assist researchers during analysis and interpretation of image data. Such workflows often require coupling vision to language to provide a natural-language interface. However, paired image-text data needed to learn this coupling are scarce and difficult to obtain in many research and clinical settings. One such setting is microscopic analysis of cell-body-stained histological human brain sections, which enables the study of cytoarchitecture: cell density and morphology and their laminar and areal organization. Here, we propose a label-mediated method that generates meaningful captions from images by linking images and text only through a label, without requiring curated paired image-text data. Given the label, we automatically mine area descriptions from related literature and use them as synthetic captions reflecting canonical cytoarchitectonic attributes. An existing cytoarchitectonic vision foundation model (CytoNet) is then coupled to a large language model via an image-to-text training objective, enabling microscopy regions to be described in natural language. Across 57 brain areas, the resulting method produces plausible area-level descriptions and supports open-set use through explicit rejection of unseen areas. It matches the cytoarchitectonic reference label for in-scope patches with 90.6% accuracy and, with the area label masked, its descriptions remain discriminative enough to recover the area in an 8-way test with 68.6% accuracy. These results suggest that weak, label-mediated pairing can suffice to connect existing biomedical vision foundation models to language, providing a practical recipe for integrating natural-language in domains where fine-grained paired annotations are scarce.
- Abstract(参考訳): ファンデーションモデルは、画像データの分析と解釈の間、研究者を支援する対話的でエージェント的なワークフローをサポートする可能性が高まっている。
このようなワークフローは、自然言語インターフェースを提供するために言語との結合ビジョンを必要とすることが多い。
しかし、この結合を学習するために必要なペア画像テキストデータはほとんどなく、多くの研究や臨床環境では入手が困難である。
そのような設定の1つは、細胞体に付着した組織学的ヒト脳の断面の顕微鏡的分析であり、細胞密度、形態、層状組織、および組織構造の研究を可能にする。
本稿では,ラベルを通してのみ画像とテキストをリンクすることで,画像から意味のあるキャプションを生成するラベル経由の手法を提案する。
このラベルから, 関連文献からの領域記述を自動的に抽出し, 標準細胞構造学的属性を反映した合成キャプションとして用いる。
既存の細胞構造的視覚基盤モデル(CytoNet)は、画像とテキストの学習目標を介して大きな言語モデルに結合され、顕微鏡領域を自然言語で記述することができる。
57領域にわたって、得られた方法は、可塑性領域レベルの記述を生成し、未確認領域の明示的な拒絶を通じてオープンセットの使用をサポートする。
顕微鏡内パッチの細胞構造的基準ラベルを90.6%の精度で照合し、領域ラベルをマスクした状態では、その記述は68.6%の精度で8方向テストで領域を回復するのに十分な識別性を維持している。
これらの結果は、ラベルを介する弱いペアリングは、既存のバイオメディカルビジョン基盤モデルと言語を結びつけるのに十分であり、粒度の細かいアノテーションが不足しているドメインに自然言語を統合するための実践的なレシピを提供することを示唆している。
関連論文リスト
- Rescind: Countering Image Misconduct in Biomedical Publications with Vision-Language and State-Space Modeling [8.024142807011378]
バイオメディカル・イメージ・フォージェリーの生成と検出を両立させる最初の視覚言語ガイドフレームワークを提案する。
拡散に基づく合成と視覚言語プロンプトを組み合わせることで,現実的かつ意味論的に制御された操作を可能にする。
Integscanは、検出とローカライゼーションの両方において、技術パフォーマンスの状態を達成し、自動化された科学的完全性分析の強力な基盤を確立する。
論文 参考訳(メタデータ) (2026-01-12T22:13:58Z) - From Panel to Pixel: Zoom-In Vision-Language Pretraining from Biomedical Scientific Literature [86.7745150269054]
パネル2パッチ(Panel2Patch)は、既存のバイオメディカル科学文献から階層構造をマイニングする新しいデータパイプラインである。
科学的数字とキャプションが与えられた場合、Panel2Patchはレイアウト、パネル、ビジュアルマーカーを解析し、フィギュア、パネル、パッチレベルにおいて階層的に協調した視覚言語ペアを構築する。
我々は,不均一な目的を粗いドクティックな記述から細かな領域に焦点を絞ったフレーズに統一する,粒度を考慮した事前学習戦略を開発した。
論文 参考訳(メタデータ) (2025-12-02T09:37:51Z) - BioCAP: Exploiting Synthetic Captions Beyond Labels in Biological Foundation Models [40.106880795877466]
画像やキャプションは、ある種の潜在形態空間からの相補的なサンプルと見なすことができる。
我々は、ウィキペディア由来の視覚情報と分類群調整形式の例で合成キャプションを生成する。
これらのドメイン固有のコンテキストは幻覚を減らし、正確なインスタンスベースのキャプションを生成するのに役立つ。
論文 参考訳(メタデータ) (2025-10-23T00:34:21Z) - BiomedParse: a biomedical foundation model for image parsing of everything everywhere all at once [58.41069132627823]
全体像解析は、セグメンテーション、検出、関連するオブジェクトの認識などのサブタスクを含む。
そこで本研究では,9つの画像モダリティにまたがる82種類のオブジェクトの分割,検出,認識を共同で行うことができる,画像解析のためのバイオメディカル基礎モデルであるBiomedParseを提案する。
共同学習により、個々のタスクの精度を向上し、テキストプロンプトを通じてノイズの多い画像中のすべての関連オブジェクトを分割するといった新しいアプリケーションを可能にする。
論文 参考訳(メタデータ) (2024-05-21T17:54:06Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Making the Most of Text Semantics to Improve Biomedical Vision--Language
Processing [17.96645738679543]
テキスト・セマンティック・モデリングは自己教師付き視覚処理におけるコントラスト学習を大幅に改善できることを示す。
テキストモデリングの改善に焦点をあてた,自己教師型共同視覚言語アプローチを提案する。
論文 参考訳(メタデータ) (2022-04-21T00:04:35Z) - Clinical Named Entity Recognition using Contextualized Token
Representations [49.036805795072645]
本稿では,各単語の意味的意味をより正確に把握するために,文脈型単語埋め込み手法を提案する。
言語モデル(C-ELMo)とC-Flair(C-Flair)の2つの深い文脈型言語モデル(C-ELMo)を事前訓練する。
明示的な実験により、静的単語埋め込みとドメインジェネリック言語モデルの両方と比較して、我々のモデルは劇的に改善されている。
論文 参考訳(メタデータ) (2021-06-23T18:12:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。