論文の概要: CoTBox-TTT: Grounding Medical VQA with Visual Chain-of-Thought Boxes During Test-time Training
- arxiv url: http://arxiv.org/abs/2511.12446v1
- Date: Sun, 16 Nov 2025 04:19:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.100845
- Title: CoTBox-TTT: Grounding Medical VQA with Visual Chain-of-Thought Boxes During Test-time Training
- Title(参考訳): CoTBox-TTT:テスト時間トレーニング中の視覚的チェーン・オブ・ソートボックスを用いた医療用VQA
- Authors: Jiahe Qian, Yuhao Shen, Zhangtianyi Chen, Juexiao Zhou, Peisong Wang,
- Abstract要約: CoTBox-TTTは、バックボーンを凍結したまま、推論時に視覚言語モデルを適用する。
視覚的連鎖信号を通じて、質問関連領域を識別する。
医療用VQAの実験では、実際の配備にはアプローチが実用的であることが示されている。
- 参考スコア(独自算出の注目度): 15.048030706132243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical visual question answering could support clinical decision making, yet current systems often fail under domain shift and produce answers that are weakly grounded in image evidence. This reliability gap arises when models attend to spurious regions and when retraining or additional labels are impractical at deployment time. We address this setting with CoTBox-TTT, an evidence-first test-time training approach that adapts a vision-language model at inference while keeping all backbones frozen. The method updates only a small set of continuous soft prompts. It identifies question-relevant regions through a visual chain-of-thought signal and encourages answer consistency across the original image and a localized crop. The procedure is label free, and plug and play with diverse backbones. Experiments on medical VQA show that the approach is practical for real deployments. For instance, adding CoTBox-TTT to LLaVA increases closed-ended accuracy by 12.3% on pathVQA.
- Abstract(参考訳): 医学的な視覚的質問応答は、臨床的な意思決定を支援する可能性があるが、現在のシステムはドメインシフトの下で失敗し、画像証拠に弱い根拠を持つ回答を生成することが多い。
この信頼性のギャップは、モデルが急激なリージョンに参加し、再トレーニングや追加ラベルがデプロイ時に実用的でない場合に生じます。
これはエビデンスファーストのテストタイムトレーニングアプローチで、すべてのバックボーンを凍結したまま、推論時に視覚言語モデルを適用する。
この方法は、連続したソフトプロンプトの小さなセットだけを更新する。
視覚的連鎖信号を通じて質問関連領域を特定し、元の画像と局所的な作物の回答一貫性を促進する。
プロシージャはラベルフリーで、様々なバックボーンでプラグ&プレイできる。
医療用VQAの実験では、実際の配備にはアプローチが実用的であることが示されている。
例えば、LLaVAにCoTBox-TTTを追加すると、pathVQAでは12.3%のクローズドエンド精度が向上する。
関連論文リスト
- F^2TTA: Free-Form Test-Time Adaptation on Cross-Domain Medical Image Classification via Image-Level Disentangled Prompt Tuning [18.58261691911925]
TTA(Test-Time Adaptation)は、未ラベルのテストデータを使用して、未表示の医療現場にソースモデルを適用するための有望なソリューションとして登場した。
本稿では,F$2$TTA(Fif-Form Test-Time Adaptation)タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-03T08:50:56Z) - BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - DOTA: Distributional Test-Time Adaptation of Vision-Language Models [69.41389326333771]
トレーニングデータとテストデータの間に大きな分散ギャップが存在する場合、視覚言語の基礎モデルは信頼できない。
本稿では,DOTA(DistributiOnal Test-time Adaptation)を提案する。
この分散中心のアプローチは、モデルが継続的に学習し、デプロイメント環境に適応することを可能にする。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Each Test Image Deserves A Specific Prompt: Continual Test-Time Adaptation for 2D Medical Image Segmentation [14.71883381837561]
ドメイン間の分散シフトは、実世界のアプリケーションに事前訓練されたセマンティックセグメンテーションモデルをデプロイする上で重要な障害である。
テスト時間適応は、推論中にドメイン間の分布シフトに取り組むのに有効であることが証明されている。
本稿では,各テスト画像に対する特定のプロンプトをトレーニングし,バッチ正規化レイヤの統計値を調整するために,Visual Prompt-based Test-Time Adaptation (VPTTA)法を提案する。
論文 参考訳(メタデータ) (2023-11-30T09:03:47Z) - Feature Alignment and Uniformity for Test Time Adaptation [8.209137567840811]
テスト時間適応は、分散テストドメインサンプルの受信時にディープニューラルネットワークを適用することを目的としている。
この設定では、モデルはトレーニングドメイン上のオンラインのラベルなしテストサンプルと事前トレーニングされたモデルにのみアクセスすることができる。
論文 参考訳(メタデータ) (2023-03-20T06:44:49Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。