論文の概要: Not All Tokens Matter Equally: Dynamic In-context Vector Distillation with Decisive-Token Supervision for Long-form Medical Report Generation
- arxiv url: http://arxiv.org/abs/2605.27194v1
- Date: Tue, 26 May 2026 15:46:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:42.39259
- Title: Not All Tokens Matter Equally: Dynamic In-context Vector Distillation with Decisive-Token Supervision for Long-form Medical Report Generation
- Title(参考訳): すべてのトークンが同等ではない: 長期医療報告作成のための決定的トークンスーパービジョンを用いた動的インコンテクストベクター蒸留
- Authors: Ning Wu, Rui Liu, Xinkun Lin, Weixing Chen, Jinxi Xiang, Tao Wei, Lina Yao, Mingjie Li,
- Abstract要約: 隠れ空間の介入へのデモンストレーション効果の蒸留は、完全な微調整に代わる軽量な代替手段を提供する。
既存のマルチモーダル変種は、ほとんどの場合、いくつかのトークンの後に出力が終了するショートフォームタスクで評価される。
本稿では,2つの相補的なメカニズムによる長期レポート生成に対処する冷凍バックボーン蒸留フレームワークであるDIVEを提案する。
- 参考スコア(独自算出の注目度): 27.665331090771634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distilling demonstration effects into hidden-space interventions offers a lightweight alternative to full finetuning. However, existing multimodal variants are mostly evaluated on short-form tasks, where outputs end after a few tokens. Extending these methods to long-form generation exposes a fundamental yet underexamined limitation: token-level distillation implicitly treats all output tokens as equally informative, but long-form outputs are dominated by high-frequency template and grammatical tokens, while the tokens that actually determine output quality are sparsely distributed. In medical report generation (MRG), two such decisive tokens stand out: pathology-related tokens that determine diagnostic content, and the end-of-sequence (EOS) event that determines termination. Both receive insufficient supervision under uniform cross-entropy, and autoregressive decoding further compounds the problem by drifting away from teacher-forced trajectories. We propose DIVE, a frozen-backbone distillation framework that addresses long-form report generation through two complementary mechanisms matched to these failures. Decisive-token supervision restores supervision balance by upweighting the cross-entropy contribution of pathology-related tokens and the EOS event, ensuring that content fidelity and termination are learned during training rather than imposed at decoding time. State-conditioned dynamic steering replaces fixed open-loop residuals with hidden-state-dependent adapters, allowing the injected signal to adapt as decoding drifts. Experiments on MIMIC-CXR and CheXpert Plus with two medical VLM backbones show that DIVE consistently ranks among the strongest methods across lexical and clinical-proxy metrics. Our method achieves the best BLEU-4, ROUGE-L, and RadGraph F1 in all dataset--backbone settings, while remaining competitive on coarse label-level CheXbert F1.
- Abstract(参考訳): 隠れ空間の介入へのデモンストレーション効果の蒸留は、完全な微調整に代わる軽量な代替手段を提供する。
しかし、既存のマルチモーダル変種は主にショートフォームのタスクで評価され、いくつかのトークンの後に出力が終了する。
トークンレベルの蒸留は、すべての出力トークンを同様に情報的として暗黙的に扱うが、ロングフォームの出力は高周波テンプレートと文法的トークンによって支配され、実際に出力品質を決定するトークンは疎分散である。
医療報告生成(MRG)では、診断内容を決定する病理関連トークンと、終了を決定するエンド・オブ・シーケンス(EOS)イベントの2つの決定的トークンが注目されている。
どちらも均一なクロスエントロピーの下では不十分な監督を受けており、自己回帰復号は教師の力による軌道から遠ざかることで問題をさらに複雑化する。
DIVEは,これらの故障にマッチする2つの相補的なメカニズムを通じて,長期のレポート生成に対処する冷凍バックボーン蒸留フレームワークである。
意思決定の監督は、病理関連トークンとEOSイベントの相互エントロピー貢献を重み付け、復号時に課せられるのではなく、トレーニング中に内容の忠実さと終了を確実に学習することで、監督のバランスを回復する。
状態条件付き動的ステアリングは固定されたオープンループ残基を隠れ状態依存アダプタに置き換え、注入された信号がデコードドリフトとして適応できるようにする。
MIMIC-CXRとCheXpert Plusを2つの医療用VLMバックボーンで実験したところ、DIVEは語彙と臨床のプロキシの指標で最強の方法であることがわかった。
提案手法は,すべてのデータセットバックボーン設定において,BLEU-4,ROUGE-L,RadGraph F1を最良とし,粗いラベルレベルであるCheXbert F1と競合する。
関連論文リスト
- AnchorDiff: Topology-Aware Masked Diffusion with Confidence-based Rewriting for Radiology Report Generation [2.2748974006378933]
医用画像から臨床的に正確なテキストレポートを自動生成することを目的とする。
既存の手法は自己回帰(AR)言語モデルに依存しており、因果依存性構造は生成を一方向の左から右へのプロセスに制限する。
本稿では,知識グラフに基づく臨床アンカーを拡散言語モデリングに統合したRRGのための最初のマスク付き拡散フレームワークであるAnchorDiffを提案する。
論文 参考訳(メタデータ) (2026-05-16T16:42:43Z) - Continuous-Time Distribution Matching for Few-Step Diffusion Distillation [57.28746398500951]
本稿では,CDM(Continuous-Time Distribution Matching)を導入し,DMDフレームワークを個別アンカーから連続最適化へ移行する。
まず、固定離散スケジュールをランダム長の動的連続スケジュールに置き換える。
第二に、学生の速度場を介して外挿された潜伏者に対してアクティブな軌道外マッチングを行う連続時間アライメント目的を提案する。
論文 参考訳(メタデータ) (2026-05-07T14:56:39Z) - Learning Fingerprints for Medical Time Series with Redundancy-Constrained Information Maximization [11.233142317726971]
可変長のMedTSを固定サイズの$k$潜在フィンガープリントトークンに圧縮する新しいフレームワークを提案する。
私たちのアーキテクチャでは、これらのトークンを生成するために、クロスアテンションボトルネックを使用し、二重目的関数でトレーニングされています。
このアプローチは低次元、解釈可能、サンプル効率の表現を生み出し、各トークンは変動の独立した要因を捉えることを奨励する。
論文 参考訳(メタデータ) (2026-04-30T18:33:40Z) - MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Resp-Agent: An Agent-Based System for Multimodal Respiratory Sound Generation and Disease Diagnosis [14.922065513695294]
Resp-Agent(Resp-Agent)は、アクティブアドリキュラムエージェント(Thinker-A$2$CA)によって編成された自律型マルチモーダルシステムである。
表現ギャップに対処するため,EHRデータをストラテジックグローバルアテンションを介して音声トークンで織り込むModality-Weaving Diagnoserを導入する。
データギャップに対処するために,テキストのみのLarge Language Model (LLM) をモダリティインジェクションにより適応させるフローマッチングジェネレータを設計する。
論文 参考訳(メタデータ) (2026-02-16T14:48:24Z) - Hierarchical Self-Supervised Representation Learning for Depression Detection from Speech [51.14752758616364]
音声による抑うつ検出 (SDD) は、従来の臨床評価に代わる有望で非侵襲的な代替手段である。
HAREN-CTCは,マルチタスク学習フレームワーク内でのクロスアテンションを用いて,多層SSL機能を統合した新しいアーキテクチャである。
このモデルはDAIC-WOZで0.81、MODMAで0.82の最先端マクロF1スコアを達成し、両方の評価シナリオで先行手法より優れている。
論文 参考訳(メタデータ) (2025-10-05T09:32:12Z) - MedSeqFT: Sequential Fine-tuning Foundation Models for 3D Medical Image Segmentation [55.37355146924576]
MedSeqFTは、医用画像解析のためのシーケンシャルな微調整フレームワークである。
事前訓練されたモデルを新しいタスクに適応させ、表現能力を改善する。
最先端の微調整戦略を一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-07T15:22:53Z) - MedSpaformer: a Transferable Transformer with Multi-granularity Token Sparsification for Medical Time Series Classification [25.47662257105448]
MedTS分類に適したトランスフォーマーベースのフレームワークであるMedSpaformerを紹介する。
グローバルなコンテキストモデリングとトークンスペーシングを可能にする、スパーストークンベースのデュアルアテンション機構が組み込まれている。
我々のモデルは、教師あり学習下で7つの医療データセットで13のベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-19T13:22:42Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。