論文の概要: No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.03978v1
- Date: Sat, 04 Oct 2025 23:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.368414
- Title: No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
- Title(参考訳): No Tokensの無駄: バイオメディカルビジョン・ランゲージモデルにおける長期的コンテキストの活用
- Authors: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy,
- Abstract要約: 本稿では,全文記事のコンテキスト認識記述に富んだ1MイメージキャプチャーペアのデータセットであるBIOMEDICA-LongCAPを紹介する。
我々は,最大512個のトークンのウィンドウをサポートするテキストエンコーダを備えた長文バイオメディカルVLMであるBMC-LongCLIPを訓練する。
私たちのモデルはコンテキスト容量を6.6倍に拡張し、トークンの無駄を55%から2.2%に削減します。
- 参考スコア(独自算出の注目度): 83.25473665239596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding vision-language models (VLMs) are typically pretrained with short text windows (<77 tokens), which forces the truncation of long-format captions. Yet, the distribution of biomedical captions from large-scale open source literature reveals that a huge portion of captions far exceed 77 tokens. To this end, we investigate the impact of pretraining on long-format biomedical captions by extending the context length of text encoders in VLMs. We find that longer context (thus, enabling additional supervision provided in long-format captions) correlates with better retrieval and classification performance. Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M image-caption pairs enriched with context-aware descriptions from full-text articles, providing longer and additional textual supervision. Using BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a text encoder supporting windows of up to 512 tokens. Our model extends context capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in Recall@1 and +2% average improvements in classification, while also converging faster than short-context. Our results demonstrate that long-context modeling is a promising direction for advancing biomedical VLMs.
- Abstract(参考訳): 埋め込み視覚言語モデル(VLM)は通常、短いテキストウィンドウ(77トークン)で事前訓練される。
しかし,大規模なオープンソース文献からのバイオメディカルキャプションの分布は,77のトークンをはるかに超えていることが明らかとなった。
そこで本研究では,VLMにおけるテキストエンコーダの文脈長を延長することにより,バイオメディカルキャプションに対する事前学習の効果を検討する。
長文の文脈(長文のキャプションで追加の監督を可能にする)は,検索性能と分類性能に相関があることが判明した。
この結果を踏まえ, BIOMEDICA-LongCAPは, 全文記事のコンテキスト認識記述に富んだ1Mイメージキャプチャー対のデータセットであり, より長く追加的なテキスト管理を提供する。
BIOMEDICA-LongCAPを用いて,最大512個のトークンのウィンドウをサポートするテキストエンコーダを備えた長文バイオメディカルVLMであるBMC-LongCLIPを訓練する。
私たちのモデルはコンテキスト容量を6.6倍に拡張し、トークンの無駄を55%から2.2%に削減します。
BMC-LongCLIPのロングキャプション検索ベンチマークでは、Recall@1では最大で30%の絶対的なゲインを達成し、分類における平均的な改善は+2%、短文よりも高速な収束を実現している。
本研究は, バイオメディカルVLMの進展に向けて, 長期コンテキストモデリングが有望な方向であることを示すものである。
関連論文リスト
- Short-Context Dominance: How Much Local Context Natural Language Actually Needs? [48.429870236229696]
正確な全文予測を再現するのに必要となる最小コンテキスト長を計測する。
長文文書から1-7kのトークンを持つシーケンスの場合、75-80%は最下位96トークンしか必要としない。
そこで本研究では,実際の次点知識を必要としないMCL(Distributedally Aware MCL)の実践的プロキシについて紹介する。
論文 参考訳(メタデータ) (2025-12-08T22:25:00Z) - QwenCLIP: Boosting Medical Vision-Language Pretraining via LLM Embeddings and Prompt tuning [1.8957478338649112]
対照的な言語画像訓練(CLIP)は、医療領域における視覚言語タスクの強力な一般化を実証している。
CLIPのテキストエンコーダは77個のトークンしか受け入れないため、長く情報に富んだ放射線学レポートを表現できない。
QwenCLIPはCLIPのテキストエンコーダを大きな言語モデル(LLM)ベースの埋め込みモジュールに置き換える視覚言語フレームワークである。
論文 参考訳(メタデータ) (2025-11-17T19:51:59Z) - Glyph: Scaling Context Windows via Visual-Text Compression [91.20717058018745]
Glyphは、長いテキストを画像にレンダリングし、視覚言語モデルで処理するフレームワークである。
提案手法は,従来の長文モデルに匹敵する精度を維持しつつ,3~4倍のトークン圧縮を実現する。
極端な圧縮では、128KテキストのVLMが1Mレベルのテキストタスクにスケールできる。
論文 参考訳(メタデータ) (2025-10-20T17:58:56Z) - MMLongBench: Benchmarking Long-Context Vision-Language Models Effectively and Thoroughly [77.43867473323566]
長文視覚言語モデル(LCVLM)は、数百の画像を1つのフォワードパスでインターリーブされたテキストトークンで処理することができる。
MMLongBenchは、様々な長いコンテキストの視覚言語タスクをカバーする最初のベンチマークである。
論文 参考訳(メタデータ) (2025-05-15T17:52:54Z) - LongCaptioning: Unlocking the Power of Long Video Caption Generation in Large Multimodal Models [52.05596926411973]
大規模マルチモーダルモデル (LMM) はビデオキャプションタスクにおいて例外的な性能を示した。
本稿では,長文ビデオの長文キャプション生成におけるLMMの限界について検討する。
階層的セマンティックアグリゲーションによる長文キャプションデータを合成するフレームワークであるLongCaption-Agentを提案する。
論文 参考訳(メタデータ) (2025-02-21T11:40:23Z) - LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z) - Extend and Explain: Interpreting Very Long Language Models [0.0]
本稿では,予測に寄与するテキストブロックを識別するための新しいMasked Smpling procedure (MSP)を提案する。
MSPは、以前の最先端よりも1.7倍の臨床的に有益なテキストブロックを特定し、100倍の速度で走り、重要なフレーズペアを生成することができる。
論文 参考訳(メタデータ) (2022-09-02T17:15:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。