論文の概要: RVLM: Recursive Vision-Language Models with Adaptive Depth
- arxiv url: http://arxiv.org/abs/2603.24224v1
- Date: Wed, 25 Mar 2026 11:52:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.274431
- Title: RVLM: Recursive Vision-Language Models with Adaptive Depth
- Title(参考訳): RVLM: 適応深さを持つ再帰的ビジョンランゲージモデル
- Authors: Nicanor Mayumu, Zeenath Khan, Melodena Stephens, Patrick Mukala, Farhad Oroumchian,
- Abstract要約: RVLMは単一パス推論を反復生成実行ループに置き換える。
すべての診断クレームは、監査性要件を満たす実行可能なコードに基礎を置いています。
Gemini 2.5 Flashを用いたBraTS 2023 Meningioma (脳MRI) とMIMIC-CXR (胸部X線) の評価を行った。
- 参考スコア(独自算出の注目度): 0.1631115063641726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical AI systems face two fundamental limitations. First, conventional vision-language models (VLMs) perform single-pass inference, yielding black-box predictions that cannot be audited or explained in clinical terms. Second, iterative reasoning systems that expose intermediate steps rely on fixed iteration budgets wasting compute on simple cases while providing insufficient depth for complex ones. We address both limitations with a unified framework. RVLM replaces single-pass inference with an iterative generate-execute loop: at each step, the model writes Python code, invokes vision sub-agents, manipulates images, and accumulates evidence. Every diagnostic claim is grounded in executable code, satisfying auditability requirements of clinical AI governance frameworks. RRouter makes iteration depth adaptive: a lightweight controller predicts the optimal budget from task-complexity features, then monitors progress and terminates early when reasoning stalls. We evaluate on BraTS 2023 Meningioma (brain MRI) and MIMIC-CXR (chest X-ray) using Gemini 2.5 Flash without fine-tuning. Across repeated runs, RVLM shows high consistency on salient findings (e.g., mass presence and enhancement) and can detect cross-modal discrepancies between Fluid-Attenuated Inversion Recovery (FLAIR) signal characteristics and segmentation boundaries. On MIMIC-CXR, it generates structured reports and correctly recognises view-specific artefacts. Code: https://github.com/nican2018/rvlm.
- Abstract(参考訳): 医療AIシステムは2つの基本的な制限に直面している。
第一に、従来の視覚言語モデル(VLM)は単一パス推論を行い、臨床用語では監査や説明ができないブラックボックス予測をもたらす。
第二に、中間ステップを公開する反復推論システムは、単純なケースで計算を無駄にする固定されたイテレーション予算に依存し、複雑なケースでは不十分な深さを提供する。
両方の制限に統一されたフレームワークで対処します。
RVLMはシングルパス推論を反復生成実行ループに置き換える:各ステップでモデルがPythonコードを書き、視覚サブエージェントを呼び出し、画像を操作し、エビデンスを蓄積する。
すべての診断クレームは実行可能なコードに基づいており、臨床AIガバナンスフレームワークの監査性要件を満たす。
RRouterはイテレーションの深さを適応させる: 軽量のコントローラはタスクの複雑度から最適な予算を予測し、進捗を監視し、推論が停止すると早期に終了する。
Gemini 2.5 Flashを用いたBraTS 2023 Meningioma (脳MRI) とMIMIC-CXR (胸部X線) の評価を行った。
RVLMは, 連続走行中, 健全な結果(例えば, 大量存在, 拡張)に高い整合性を示し, FLAIR信号特性とセグメンテーション境界との相違を検出できる。
MIMIC-CXRでは、構造化されたレポートを生成し、ビュー固有のアーティファクトを正しく認識する。
コード:https://github.com/nican2018/rvlm.com
関連論文リスト
- SPEGC: Continual Test-Time Adaptation via Semantic-Prompt-Enhanced Graph Clustering for Medical Image Segmentation [12.0982298854338]
Continual Test-Time Adaptation (CTTA)は、トレーニング済みのモデルが、ラベルなしドメインの継続的な変更に適応できるようにすることを目的としている。
医用画像セグメンテーションのためのセマンティック・プロンプト拡張グラフクラスタリング(SPEGC)によるCTTAを提案する。
論文 参考訳(メタデータ) (2026-03-12T03:22:43Z) - VisualAD: Language-Free Zero-Shot Anomaly Detection via Vision Transformer [18.348454274148185]
ゼロショット異常検出(ZSAD)では、ターゲットクラスの異常サンプルにアクセスせずに異常を検出し、位置を特定する必要がある。
この作業は、ZSADのテキストブランチの必要性を再考し、ビジョントランスフォーマー上に構築された純粋に視覚的なフレームワークであるVisualADを提示する。
VisualADは、産業ドメインと医療ドメインにまたがる13のゼロショット異常検出ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2026-03-09T04:33:56Z) - Fix Before Search: Benchmarking Agentic Query Visual Pre-processing in Multimodal Retrieval-augmented Generation [47.96044455071274]
V-QPP-Benchは、Visual Queryの事前処理に特化した最初のベンチマークである。
視覚障害は、検索リコールとエンド・ツー・エンドのMRAGパフォーマンスの両方を著しく低下させる。
市販のMLLMは、特別な訓練を受けずにツールの選択とパラメータ予測に苦労する。
教師付き微調整により、コンパクトモデルはより大きなプロプライエタリモデルと同等または優れた性能を達成できる。
論文 参考訳(メタデータ) (2026-02-13T18:39:48Z) - Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging [3.6136448489318695]
医用イメージングを4つの協調エージェントに分解するエージェントフレームワークであるR4を提案する。
R4 は LLM-as-a-Judge のスコアを約 +1.7-2.5 で、mAP50 は 2.5-+3.5 の絶対点を強い単VLM ベースライン上で連続的に引き上げる。
論文 参考訳(メタデータ) (2026-01-13T03:44:06Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - U2AD: Uncertainty-based Unsupervised Anomaly Detection Framework for Detecting T2 Hyperintensity in MRI Spinal Cord [7.811634659561162]
脊髄MR画像におけるT2過強度は、変性頚髄症などの病態において重要なバイオマーカーである。
深層学習法は病変検出の可能性を示してきたが、ほとんどの教師付きアプローチは大きな注釈付きデータセットに大きく依存している。
本稿では,これらの制約に対処するため,不確実性に基づくunsupervised Anomaly DetectionフレームワークであるU2ADを提案する。
論文 参考訳(メタデータ) (2025-03-17T17:33:32Z) - Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology
Report Generation [48.723504098917324]
マルチレベル・クロスモーダルアライメントを学習するためのUnify, Align, then Refine (UAR)アプローチを提案する。
本稿では,Latent Space Unifier,Cross-modal Representation Aligner,Text-to-Image Refinerの3つの新しいモジュールを紹介する。
IU-XrayおよびMIMIC-CXRベンチマークデータセットの実験と解析は、UARの様々な最先端手法に対する優位性を実証している。
論文 参考訳(メタデータ) (2023-03-28T12:42:12Z) - Cross-Modal Causal Intervention for Medical Report Generation [107.76649943399168]
放射線医学報告生成(RRG)は, コンピュータ支援診断と薬剤指導に不可欠である。
視覚言語的バイアスによる急激な相関により、正確な病変記述の生成は依然として困難である。
我々はCrossModal Causal Representation Learning (CMCRL)という2段階のフレームワークを提案する。
IU-XrayとMIMIC-CXRの実験により、我々のCMCRLパイプラインは最先端の手法よりも大幅に優れていることが示された。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Dense Label Encoding for Boundary Discontinuity Free Rotation Detection [69.75559390700887]
本稿では,分類に基づく比較的研究の少ない方法論について検討する。
我々は2つの側面でフロンティアを推し進めるための新しい手法を提案する。
航空画像のための大規模公開データセットの実験と視覚解析は,我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-11-19T05:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。