論文の概要: ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding
- arxiv url: http://arxiv.org/abs/2601.22666v1
- Date: Fri, 30 Jan 2026 07:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.299958
- Title: ExpAlign: Expectation-Guided Vision-Language Alignment for Open-Vocabulary Grounding
- Title(参考訳): ExpAlign:オープンボキャブラリグラウンドのための期待誘導型ビジョンランゲージアライメント
- Authors: Junyi Hu, Tian Bai, Fengyi Wu, Wenyan Li, Zhenming Peng, Yi Zhang,
- Abstract要約: オープン語彙の接地には、弱い監督下で正確な視覚言語アライメントが必要である。
原理化された複数インスタンス学習の定式化に基づいて構築された理論的に基礎付けられた視覚言語アライメントフレームワークであるExpAlignを提案する。
- 参考スコア(独自算出の注目度): 6.310226357092042
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Open-vocabulary grounding requires accurate vision-language alignment under weak supervision, yet existing methods either rely on global sentence embeddings that lack fine-grained expressiveness or introduce token-level alignment with explicit supervision or heavy cross-attention designs. We propose ExpAlign, a theoretically grounded vision-language alignment framework built on a principled multiple instance learning formulation. ExpAlign introduces an Expectation Alignment Head that performs attention-based soft MIL pooling over token-region similarities, enabling implicit token and instance selection without additional annotations. To further stabilize alignment learning, we develop an energy-based multi-scale consistency regularization scheme, including a Top-K multi-positive contrastive objective and a Geometry-Aware Consistency Objective derived from a Lagrangian-constrained free-energy minimization. Extensive experiments show that ExpAlign consistently improves open-vocabulary detection and zero-shot instance segmentation, particularly on long-tail categories. Most notably, it achieves 36.2 AP$_r$ on the LVIS minival split, outperforming other state-of-the-art methods at comparable model scale, while remaining lightweight and inference-efficient.
- Abstract(参考訳): オープン・ボキャブラリ・グラウンドリングは、弱い監督下で正確な視覚言語アライメントを必要とするが、既存の手法は、きめ細かい表現力に欠けるグローバルな文の埋め込みに依存するか、明示的な監督や重い横断的デザインによるトークンレベルのアライメントを導入するかのいずれかである。
原理化された複数インスタンス学習の定式化に基づいて構築された理論的に基礎付けられた視覚言語アライメントフレームワークであるExpAlignを提案する。
ExpAlignは、トークンとリージョンの類似性に対してアテンションベースのソフトMILプーリングを実行する期待アライメントヘッドを導入し、追加アノテーションなしで暗黙のトークンとインスタンスの選択を可能にする。
さらにアライメント学習の安定化を図るため,ラグランジアン制約自由エネルギー最小化から得られるTop-Kマルチ陽性コントラスト目的とGeometry-Aware Consistency Objectiveを含む,エネルギーベースの多スケール整合性正規化手法を開発した。
ExpAlignは、特にロングテールカテゴリにおいて、オープンボキャブラリ検出とゼロショットインスタンスセグメンテーションを一貫して改善している。
最も注目すべきは、LVISのミニバルスプリットで36.2 AP$_r$を達成し、軽量で推論効率を保ちながら、同等のモデルスケールで他の最先端のメソッドより優れていることである。
関連論文リスト
- Topological Alignment of Shared Vision-Language Embedding Space [5.5522557994489246]
ToMCLIPは、トポロジ保存制約で埋め込み空間を整列するトポロジ対応フレームワークである。
マルチリンガル表現の構造コヒーレンスの向上,CIFAR-100でのゼロショット精度の向上,およびxFlickr&COでのマルチリンガル検索性能の向上を示す。
論文 参考訳(メタデータ) (2025-10-13T01:36:38Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - ATAS: Any-to-Any Self-Distillation for Enhanced Open-Vocabulary Dense Prediction [7.353998772647553]
Any-to-Any Self-Distillation (ATAS)は、セマンティックコヒーレンスときめ細かいアライメントを同時に強化する新しいアプローチである。
ATASはオープン語彙オブジェクト検出とセマンティックセグメンテーションのベンチマークでかなりの性能向上を達成した。
論文 参考訳(メタデータ) (2025-06-10T10:40:10Z) - Revisiting Self-Supervised Heterogeneous Graph Learning from Spectral Clustering Perspective [52.662463893268225]
自己教師付きヘテロジニアスグラフ学習(SHGL)は様々なシナリオにおいて有望な可能性を示している。
既存のSHGLメソッドには2つの大きな制限がある。
ランクと二重整合性制約によって強化された新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-12-01T09:33:20Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [52.489874804051304]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Progressively Guide to Attend: An Iterative Alignment Framework for
Temporal Sentence Grounding [53.377028000325424]
時間的文接地作業のための反復アライメントネットワーク(IA-Net)を提案する。
学習可能なパラメータを持つマルチモーダル特徴をパットすることで、非整合フレームワードペアの非整合問題を軽減する。
また、アライメントの知識を洗練させるために、各アライメントモジュールに従ってキャリブレーションモジュールを考案する。
論文 参考訳(メタデータ) (2021-09-14T02:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。