論文の概要: LoFi: Location-Aware Fine-Grained Representation Learning for Chest X-ray
- arxiv url: http://arxiv.org/abs/2603.19451v1
- Date: Thu, 19 Mar 2026 20:24:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:38.8658
- Title: LoFi: Location-Aware Fine-Grained Representation Learning for Chest X-ray
- Title(参考訳): LoFi:胸部X線のための位置認識細粒度表現学習
- Authors: Myeongkyun Kang, Yanting Yang, Xiaoxiao Li,
- Abstract要約: 微細な表現学習は胸部X線における検索と句接地に不可欠である。
そこで我々は,シグモイド,キャプション,位置認識によるキャプション損失を共同で最適化するLoFi(LoFi)を提案する。
提案手法はMIMIC-CXRとPadChest-GRの検索性能と句のグラウンド化性能に優れる。
- 参考スコア(独自算出の注目度): 33.30452735577703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-grained representation learning is crucial for retrieval and phrase grounding in chest X-rays, where clinically relevant findings are often spatially confined. However, the lack of region-level supervision in contrastive models and the limited ability of large vision language models to capture fine-grained representations in external validation lead to suboptimal performance on these tasks. To address these limitations, we propose Location-aware Fine-grained representation learning (LoFi), which jointly optimizes sigmoid, captioning, and location-aware captioning losses using a lightweight large language model. The location-aware captioning loss enables region-level supervision through grounding and dense captioning objectives, thereby facilitating fine-grained representation learning. Building upon these representations, we integrate a fine-grained encoder into retrieval-based in-context learning to enhance chest X-ray grounding across diverse settings. Extensive experiments demonstrate that our method achieves superior retrieval and phrase grounding performance on MIMIC-CXR and PadChest-GR.
- Abstract(参考訳): 微細な表現学習は胸部X線における検索と句の接地に不可欠であり、臨床的に関連する所見は空間的に制限されることが多い。
しかし、対照的なモデルにおける領域レベルの監督の欠如と、外部の検証におけるきめ細かい表現を捉えるための大きな視覚言語モデルの限られた能力は、これらのタスクにおいて最適以下のパフォーマンスをもたらす。
これらの制約に対処するため、我々は、軽量な大言語モデルを用いて、シグモイド、キャプション、および位置認識キャプション損失を共同で最適化する、位置認識きめ細かな表現学習(LoFi)を提案する。
位置認識キャプション損失により、接地および密集したキャプション目標による地域レベルの監視が可能となり、きめ細かい表現学習が容易となる。
これらの表現に基づいて、検索に基づくテキスト内学習に細粒度エンコーダを組み込むことにより、多様な環境における胸部X線グラウンド化を向上する。
実験により,MIMIC-CXRとPadChest-GRの検索性能と句接頭性能が向上することが確認された。
関連論文リスト
- Interpretable Cross-Domain Few-Shot Learning with Rectified Target-Domain Local Alignment [19.113214017897118]
Cross-Domain Few-Shot Learningは、大規模な汎用データ(ソースドメイン)でトレーニングされたモデルを、少ないトレーニングデータだけで、下流のターゲットドメインに適応させる。
CLIPモデルは、解釈可能な認識のためのきめ細かい視覚的手がかりにはほとんど焦点を合わせられない。
この問題に対処するために、局所的な視覚的特徴とテキスト意味論の整合性に監督が欠如しているため、私たちは自己監督情報に目を向ける。
論文 参考訳(メタデータ) (2026-03-18T12:20:21Z) - GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning [8.819428500071007]
視覚言語事前学習モデルは、自然言語によるリモートセンシング画像のブリッジにおいて大きな進歩を遂げている。
リモートセンシングタスクにおける微粒なアライメントを実現する統合フレームワークGeoAlignCLIPを提案する。
RSFG-100kはシーン記述、地域レベルのアノテーション、難易度の高いサンプルを含む微粒なリモートセンシングデータセットである。
論文 参考訳(メタデータ) (2026-03-10T12:12:11Z) - BREATH-VL: Vision-Language-Guided 6-DoF Bronchoscopy Localization via Semantic-Geometric Fusion [7.382475458362566]
BREATH-VLは,視覚言語モデルからのセマンティックキューと,登録手法からの幾何情報を統合し,正確な6-DoFポーズ推定を行うハイブリッドフレームワークである。
これに基づいて、BREATH-VLは、最先端の視覚のみのローカライゼーション法を精度と一般化の両方で上回り、翻訳誤差を最良性能のベースラインと比較して25.5%削減する。
論文 参考訳(メタデータ) (2026-01-07T09:00:52Z) - PathFLIP: Fine-grained Language-Image Pretraining for Versatile Computational Pathology [6.821738567680833]
PathFLIP(Pathology Fine-fine Language-Image Pretraining)は,WSI(全体的全スライド画像)解釈のための新しいフレームワークである。
PathFLIPは、スライドレベルのキャプションを領域レベルのサブキャプションに分解し、テキスト条件付き領域埋め込みを生成して、正確な視覚的な接地を容易にする。
論文 参考訳(メタデータ) (2025-12-19T14:26:50Z) - FineRS: Fine-grained Reasoning and Segmentation of Small Objects with Reinforcement Learning [62.11389260206383]
textscFineRSは、非常に小さなオブジェクトをセグメント化するための2段階のMLLMベースの強化学習フレームワークである。
textscFineRS-4kは,属性レベルの推論に基づくMLLMの評価と,微妙で小規模なターゲットに対する画素レベルのセグメンテーションのための新しいデータセットである。
論文 参考訳(メタデータ) (2025-10-24T10:14:17Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Contrastive Localized Language-Image Pre-Training [60.4967533101887]
コントラスト言語-画像事前学習(CLIP)は、画像/テキスト表現を生成するために視覚エンコーダを訓練するための著名な方法である。
本稿では,CLIPとリージョンテキストのコントラッシブな損失とモジュールを補完することにより,CLOC(Contrastive Localized Language- Image Pre-Trening)を提案する。
CLOCは画像領域認識および検索タスクのための高品質な地域埋め込みを可能にする。
論文 参考訳(メタデータ) (2024-10-03T17:56:09Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - MAF: Multimodal Alignment Framework for Weakly-Supervised Phrase
Grounding [74.33171794972688]
本稿では,詳細な視覚表現と視覚認識言語表現を活用することで,句オブジェクトの関連性をモデル化するアルゴリズムを提案する。
広く採用されているFlickr30kデータセットで実施された実験は、既存の弱教師付き手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2020-10-12T00:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。