論文の概要: No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2510.03978v1
- Date: Sat, 04 Oct 2025 23:38:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.368414
- Title: No Tokens Wasted: Leveraging Long Context in Biomedical Vision-Language Models
- Title(参考訳): No Tokensの無駄: バイオメディカルビジョン・ランゲージモデルにおける長期的コンテキストの活用
- Authors: Min Woo Sun, Alejandro Lozano, Javier Gamazo Tejero, Vishwesh Nath, Xiao Xiao Sun, James Burgess, Yuhui Zhang, Kun Yuan, Robert Tibshirani, Sean Huver, Serena Yeung-Levy,
- Abstract要約: 本稿では,全文記事のコンテキスト認識記述に富んだ1MイメージキャプチャーペアのデータセットであるBIOMEDICA-LongCAPを紹介する。
我々は,最大512個のトークンのウィンドウをサポートするテキストエンコーダを備えた長文バイオメディカルVLMであるBMC-LongCLIPを訓練する。
私たちのモデルはコンテキスト容量を6.6倍に拡張し、トークンの無駄を55%から2.2%に削減します。
- 参考スコア(独自算出の注目度): 83.25473665239596
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embedding vision-language models (VLMs) are typically pretrained with short text windows (<77 tokens), which forces the truncation of long-format captions. Yet, the distribution of biomedical captions from large-scale open source literature reveals that a huge portion of captions far exceed 77 tokens. To this end, we investigate the impact of pretraining on long-format biomedical captions by extending the context length of text encoders in VLMs. We find that longer context (thus, enabling additional supervision provided in long-format captions) correlates with better retrieval and classification performance. Given this finding, we introduce BIOMEDICA-LongCAP, a dataset of 1M image-caption pairs enriched with context-aware descriptions from full-text articles, providing longer and additional textual supervision. Using BIOMEDICA-LongCAP, we train BMC-LongCLIP, a long-context biomedical VLM with a text encoder supporting windows of up to 512 tokens. Our model extends context capacity by 6.6x, reducing token waste from 55% to just 2.2%. On long-caption retrieval benchmarks, BMC-LongCLIP achieves up to +30% absolute gains in Recall@1 and +2% average improvements in classification, while also converging faster than short-context. Our results demonstrate that long-context modeling is a promising direction for advancing biomedical VLMs.
- Abstract(参考訳): 埋め込み視覚言語モデル(VLM)は通常、短いテキストウィンドウ(77トークン)で事前訓練される。
しかし,大規模なオープンソース文献からのバイオメディカルキャプションの分布は,77のトークンをはるかに超えていることが明らかとなった。
そこで本研究では,VLMにおけるテキストエンコーダの文脈長を延長することにより,バイオメディカルキャプションに対する事前学習の効果を検討する。
長文の文脈(長文のキャプションで追加の監督を可能にする)は,検索性能と分類性能に相関があることが判明した。
この結果を踏まえ, BIOMEDICA-LongCAPは, 全文記事のコンテキスト認識記述に富んだ1Mイメージキャプチャー対のデータセットであり, より長く追加的なテキスト管理を提供する。
BIOMEDICA-LongCAPを用いて,最大512個のトークンのウィンドウをサポートするテキストエンコーダを備えた長文バイオメディカルVLMであるBMC-LongCLIPを訓練する。
私たちのモデルはコンテキスト容量を6.6倍に拡張し、トークンの無駄を55%から2.2%に削減します。
BMC-LongCLIPのロングキャプション検索ベンチマークでは、Recall@1では最大で30%の絶対的なゲインを達成し、分類における平均的な改善は+2%、短文よりも高速な収束を実現している。
本研究は, バイオメディカルVLMの進展に向けて, 長期コンテキストモデリングが有望な方向であることを示すものである。
関連論文リスト
- LoTLIP: Improving Language-Image Pre-training for Long Text Understanding [71.04947115945349]
データを長いキャプションで再現するが、それを直接学習することで、短い文章の理解においてパフォーマンスが低下する可能性がある。
そして、モデルが元の短いテキスト理解レベルに追いつくのを手助けしますが、長いテキスト理解の能力を大幅に向上させます。
本手法は,長文画像検索タスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-07T17:52:56Z) - Long Context Transfer from Language to Vision [74.78422371545716]
ビデオシーケンスは貴重な時間情報を提供するが、既存の大規模マルチモーダルモデル(LMM)は非常に長いビデオを理解するには不十分である。
本稿では,言語モデルの観点からこの問題にアプローチする。
言語バックボーンの文脈長を単純に外挿することで、LMMはビデオトレーニングなしで桁違いに多くの視覚的トークンを理解できるようになる。
論文 参考訳(メタデータ) (2024-06-24T17:58:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。