論文の概要: Aligning Forest and Trees in Images and Long Captions for Visually Grounded Understanding
- arxiv url: http://arxiv.org/abs/2602.02977v1
- Date: Tue, 03 Feb 2026 01:31:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.176015
- Title: Aligning Forest and Trees in Images and Long Captions for Visually Grounded Understanding
- Title(参考訳): 視覚的理解のための画像・長大キャプションにおける森林・樹木の配向
- Authors: Byeongju Woo, Zilin Wang, Byeonghyun Pak, Sangwoo Mo, Stella X. Yu,
- Abstract要約: CLIPのような大きな視覚言語モデルは、画像やテキストを未分化の全体としてアライメントするため、長いキャプションに苦労する。
画像と長文のセマンティクスを画素レベルの監督なしに協調する階層的な画像テキスト表現学習フレームワークCAFTを提案する。
- 参考スコア(独自算出の注目度): 31.471221254091294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models such as CLIP struggle with long captions because they align images and texts as undifferentiated wholes. Fine-grained vision-language understanding requires hierarchical semantics capturing both global context and localized details across visual and textual domains. Yet linguistic hierarchies from syntax or semantics rarely match visual organization, and purely visual hierarchies tend to fragment scenes into appearance-driven parts without semantic focus. We propose CAFT (Cross-domain Alignment of Forests and Trees), a hierarchical image-text representation learning framework that aligns global and local semantics across images and long captions without pixel-level supervision. Coupling a fine-to-coarse visual encoder with a hierarchical text transformer, it uses a hierarchical alignment loss that matches whole images with whole captions while biasing region-sentence correspondences, so that coarse semantics are built from fine-grained evidence rather than from aggregation untethered to part-level grounding. Trained on 30M image-text pairs, CAFT achieves state-of-the-art performance on six long-text retrieval benchmarks and exhibits strong scaling behavior. Experiments show that hierarchical cross-domain alignment enables fine-grained, visually grounded image-text representations to emerge without explicit region-level supervision.
- Abstract(参考訳): CLIPのような大きな視覚言語モデルは、画像やテキストを未分化の全体としてアライメントするため、長いキャプションに苦労する。
微粒な視覚言語理解には、グローバルコンテキストと、視覚領域とテキスト領域をまたいだ局所化された詳細の両方をキャプチャする階層的意味論が必要である。
しかし、構文や意味論の言語的階層は視覚的組織とはほとんど一致せず、純粋に視覚的階層は、シーンをセマンティックな焦点のない外観駆動の部分に分解する傾向がある。
画像や長いキャプション間の大域的・局所的な意味を画素レベルの監督なしに整列する階層的画像テキスト表現学習フレームワークであるCAFT(Cross-domain Alignment of Forests and Trees)を提案する。
微細で粗いビジュアルエンコーダと階層的なテキストトランスフォーマーを結合し、階層的なアライメントロスを使用して、画像全体とキャプション全体とを一致させ、領域文対応をバイアスさせ、粗いセマンティクスは、係留されていないアグリゲーションから部分レベルのグラウンド化までではなく、きめ細かい証拠から構築される。
30MイメージテキストペアでトレーニングされたCAFTは、6つの長文検索ベンチマークで最先端のパフォーマンスを達成し、強力なスケーリング動作を示す。
実験により、階層的なクロスドメインアライメントにより、領域レベルの明示的な監督なしに、きめ細かな、視覚的に基底付けられた画像テキスト表現が実現可能であることが示された。
関連論文リスト
- Seg4Diff: Unveiling Open-Vocabulary Segmentation in Text-to-Image Diffusion Transformers [56.76198904599581]
テキストと画像の拡散モデルは、言語翻訳において優れているため、モーダル間の注意機構を通じて暗黙的に概念を基礎づける。
近年のマルチモーダル拡散トランスフォーマーでは, 共用画像とテキストトークンを導入し, よりリッチでスケーラブルなクロスモーダルアライメントを実現している。
MM-DiTの注意構造を分析するための体系的フレームワークであるSeg4Diffを導入し,テキストから画像への意味情報の伝達方法に着目した。
論文 参考訳(メタデータ) (2025-09-22T17:59:54Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - Hierarchical Open-vocabulary Universal Image Segmentation [48.008887320870244]
Open-vocabulary Image segmentationは、任意のテキスト記述に従ってイメージをセマンティック領域に分割することを目的としている。
我々は,「モノ」と「スタッフ」の双方に対して,分離されたテキストイメージ融合機構と表現学習モジュールを提案する。
HIPIE tackles, HIerarchical, oPen-vocabulary, unIvErsal segmentation task in a unified framework。
論文 参考訳(メタデータ) (2023-07-03T06:02:15Z) - Hyperbolic Image-Text Representations [28.91160313537875]
本稿では,画像とテキストの双曲表現を生成するコントラストモデルMERUを提案する。
この結果から,MERUはCLIPの性能と競合しながら,高度に解釈可能で構造化された表現空間を学習していることがわかった。
論文 参考訳(メタデータ) (2023-04-18T17:59:45Z) - Image-Specific Information Suppression and Implicit Local Alignment for
Text-based Person Search [61.24539128142504]
テキストベースの人物検索(TBPS)は,問合せテキストが与えられた画像ギャラリーから同一の身元で歩行者画像を検索することを目的とした課題である。
既存の手法の多くは、モダリティ間の微粒な対応をモデル化するために、明示的に生成された局所的な部分に依存している。
TBPSのためのマルチレベルアライメントネットワーク(MANet)を提案する。
論文 参考訳(メタデータ) (2022-08-30T16:14:18Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Constructing Phrase-level Semantic Labels to Form Multi-Grained
Supervision for Image-Text Retrieval [48.20798265640068]
テキスト中のミスマッチしたユニットの識別をより良くするためのフレーズレベルの監視を導入する。
一致した文のテキストシーングラフを構築し,フレーズレベルのラベルとしてエンティティとトリプルを抽出する。
トレーニングでは,グローバルな視点とローカルな視点の両方から,マルチスケールのマッチング損失を提案する。
論文 参考訳(メタデータ) (2021-09-12T14:21:15Z) - Step-Wise Hierarchical Alignment Network for Image-Text Matching [29.07229472373576]
画像テキストマッチングを多段階のクロスモーダル推論プロセスに分解するステップワイズ階層アライメントネットワーク(SHAN)を提案する。
具体的には,まず,グローバル・ローカル・グローバル・グローバル・グローバル・グローバル・アライメントを文脈レベルで逐次実行し,フラグメントレベルでローカル・ローカル・アライメントを実現する。
論文 参考訳(メタデータ) (2021-06-11T17:05:56Z) - Matching Visual Features to Hierarchical Semantic Topics for Image
Paragraph Captioning [50.08729005865331]
本稿では,階層的トピック誘導画像段落生成フレームワークを開発した。
複数の抽象レベルでの画像とテキストの相関をキャプチャするために、変分推論ネットワークを設計します。
段落生成を導くために、学習した階層的トピックと視覚的特徴を言語モデルに統合する。
論文 参考訳(メタデータ) (2021-05-10T06:55:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。