論文の概要: Stateful Visual Encoders for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.04433v1
- Date: Wed, 03 Jun 2026 04:31:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.536698
- Title: Stateful Visual Encoders for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのステートフルビジュアルエンコーダ
- Authors: Zirui Wang, Junwei Yu, Adam Yala, David M. Chan, Joseph E. Gonzalez, Trevor Darrell,
- Abstract要約: 視覚言語モデル(VLM)は、意思決定が視覚的変化に依存するマルチイメージ、マルチターンエージェント設定において、ますます使われている。
既存のオープンウェイトなVLMでは、ビジュアル比較は言語モデル内でのみ行われ、ビジュアルエンコーダ自体はステートレスのままである。
我々は、先行する視覚的特徴に対して各視覚的表現を条件付けるステートフルビジュアルを導入する。
- 参考スコア(独自算出の注目度): 85.81539882553659
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Vision-language models (VLMs) are increasingly used in multi-image, multi-turn agentic settings where decisions depend on visual changes. However, in existing open-weight VLMs, visual comparisons happen only inside the language model, while the visual encoder itself remains stateless: each image is encoded independently, without access to the prior visual context. As a result, small but task-critical changes may be attenuated before the language model has a chance to compare them, especially when those changes do not affect the high-level semantics of the scene. We introduce a Stateful Visual Encoder, which conditions each visual representation on prior visual features. Under supervised finetuning, VLMs equipped with stateful encoders achieve consistent improvements on controlled tasks involving cross-image spatial aggregation, multi-object visual differencing, and visual trajectory behavior cloning. These improvements are consistent across input resolutions, language model sizes, and VLM backbones. Finally, we validate our model on real-world tasks, including longitudinal radiology, fine-grained image comparison, and remote sensing, where stateful encoders consistently improve generalist VLM baselines and can match or surpass specialized models in selected domains. Project page: https://statefulvisualencoders.github.io/
- Abstract(参考訳): 視覚言語モデル(VLM)は、意思決定が視覚的変化に依存するマルチイメージ、マルチターンエージェント設定において、ますます使われている。
しかし、既存のオープンウェイトなVLMでは、ビジュアル比較は言語モデル内でのみ行われ、ビジュアルエンコーダ自体はステートレスのままである。
結果として、言語モデルが比較する機会を得る前に、小さながタスククリティカルな変更が減る可能性がある。
我々は、先行する視覚的特徴に対して各視覚的表現を規定するステートフルビジュアルエンコーダを導入する。
教師付き微調整の下では、ステートフルエンコーダを備えたVLMは、クロスイメージ空間アグリゲーション、多目的視覚差分、視覚軌道行動クローニングを含む制御されたタスクに対して一貫した改善を行う。
これらの改善は、入力解像度、言語モデルサイズ、VLMバックボーン間で一貫性がある。
最後に,縦断的放射線学,きめ細かな画像比較,リモートセンシングなどの実世界の課題において,ステートフルエンコーダが汎用VLMベースラインを一貫して改善し,選択した領域の特化モデルに適合あるいは優越できるような実世界の課題に対して,我々のモデルを検証した。
プロジェクトページ: https://statefulvisualencoders.github.io/
関連論文リスト
- A More Word-like Image Tokenization for MLLMs [26.120899392740203]
本稿では,コヒーレントなセマンティックユニットへのパッチの埋め込みをクラスタ化するDisentangled Visual Tokenization (DiVT)を提案する。
多様なマルチモーダルベンチマークで、DiVTはベースラインにマッチするか、はるかに少ないビジュアルトークンで超える。
論文 参考訳(メタデータ) (2026-05-18T07:09:46Z) - Steerable Visual Representations [72.39044430620977]
我々は、グローバルでローカルな機能を自然言語で操れるステアブルなビジュアル表現を紹介した。
また,本手法は,異常検出とパーソナライズされた対象の識別に専用アプローチを適合させ,性能を向上する。
論文 参考訳(メタデータ) (2026-04-02T17:59:49Z) - Decoupling Vision and Language: Codebook Anchored Visual Adaptation [20.393987361723724]
LVLM(Large Vision-Language Models)は、視覚エンコーダを使用して画像を下流の推論のための表現に変換する。
既存のアダプティブメソッドは、プロジェクタチューニングやその他のパラメータ効率の更新を通じて、エンコーダと言語モデルの間の連続的な機能インターフェースを変更する。
CRAFTは,視覚表現を安定なトークン空間に固定する離散コードブックを用いて,エンコーダを微調整する軽量な手法である。
論文 参考訳(メタデータ) (2026-02-23T02:39:26Z) - OTTER: A Vision-Language-Action Model with Text-Aware Visual Feature Extraction [95.6266030753644]
Vision-Language-Action(VLA)モデルは、視覚的な観察と言語指示に基づいてロボット行動を予測することを目的としている。
既存のアプローチでは、視覚的特徴と言語的特徴が独立して下流ポリシーに供給されるため、微調整済みの視覚言語モデル(VLM)が必要である。
本稿では,テキスト認識による視覚的特徴抽出によって既存のアライメントを活用する新しいVLAアーキテクチャOTTERを提案する。
論文 参考訳(メタデータ) (2025-03-05T18:44:48Z) - Symmetrical Visual Contrastive Optimization: Aligning Vision-Language Models with Minimal Contrastive Images [7.823336661261962]
VLM(Large Vision-Language Models)は、画像の内容を無視し、言語モデルに過剰に依存する傾向にある。
本稿では,S-VCO(Symmetrical Visual Contrastive Optimization)を提案する。
論文 参考訳(メタデータ) (2025-02-19T18:05:42Z) - How Well Can Vision Language Models See Image Details? [53.036922527685064]
視覚言語モデルはどのようにして画像の詳細を見ることができるのか」を探求するために画素値予測タスクを導入する。
我々の研究は、VLM事前学習タスクと視覚エンコーダ適応の1つとして画素値予測を組み込むことで、下流画像言語理解タスクにおけるVLM性能が著しく向上することを明らかにする。
論文 参考訳(メタデータ) (2024-08-07T17:59:40Z) - BRAVE: Broadening the visual encoding of vision-language models [48.41146184575914]
視覚言語モデル(VLM)は、例えばCLIPのような視覚エンコーダと、下流タスクを解決するために符号化された特徴を解釈する言語モデル(LM)で構成されている。
目覚しい進歩にもかかわらず、VLMは視覚エンコーダの限られた能力のためにいくつかの欠点に直面している。
BRAVEは,複数の凍結エンコーダの特徴をより汎用的な表現に集約し,凍結したLMへの入力として直接供給することができる。
論文 参考訳(メタデータ) (2024-04-10T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。