論文の概要: Long Story Short: Disentangling Compositionality and Long-Caption Understanding in VLMs
- arxiv url: http://arxiv.org/abs/2509.19207v1
- Date: Tue, 23 Sep 2025 16:28:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.948533
- Title: Long Story Short: Disentangling Compositionality and Long-Caption Understanding in VLMs
- Title(参考訳): 長編略:VLMにおける構成性と長文理解の両立
- Authors: Israfel Salazar, Desmond Elliott, Yova Kementchedjhieva,
- Abstract要約: 構成性と長文理解の相互作用について検討する。
これらの機能をターゲットにした、さまざまなモデルのトレーニングと評価を行います。
高品質で長大なデータに基づいて訓練されたモデルでは、両方のタスクで高いパフォーマンスが得られることを示す。
- 参考スコア(独自算出の注目度): 15.076979277295736
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Contrastive vision-language models (VLMs) have made significant progress in binding visual and textual information, but understanding long, dense captions remains an open challenge. We hypothesize that compositionality, the capacity to reason about object-attribute bindings and inter-object relationships, is key to understanding longer captions. In this paper, we investigate the interaction between compositionality and long-caption understanding, asking whether training for one property enhances the other. We train and evaluate a range of models that target each of these capabilities. Our results reveal a bidirectional relationship: compositional training improves performance on long-caption retrieval, and training on long captions promotes compositionality. However, these gains are sensitive to data quality and model design. We find that training on poorly structured captions, or with limited parameter updates, fails to support generalization. Likewise, strategies that aim at retaining general alignment, such as freezing positional embeddings, do not improve compositional understanding. Overall, we find that compositional understanding and long-caption understanding are intertwined capabilities that can be jointly learned through training on dense, grounded descriptions. Despite these challenges, we show that models trained on high-quality, long-caption data can achieve strong performance in both tasks, offering practical guidance for improving VLM generalization.
- Abstract(参考訳): 対照的な視覚言語モデル(VLM)は、視覚情報とテキスト情報の結合において大きな進歩を遂げてきたが、長い、密集したキャプションを理解することは依然としてオープンな課題である。
我々は、より長いキャプションを理解する上では、構成性、オブジェクト-属性結合とオブジェクト間関係を推論する能力が重要であると仮定する。
本稿では,構成性と長文理解の相互作用を考察し,ある特性に対するトレーニングが他方を促進させるかどうかを問う。
これらの機能をターゲットにした、さまざまなモデルのトレーニングと評価を行います。
コンポジショントレーニングは長文検索の性能を向上させるとともに,長文キャプションのトレーニングは構成性を促進する。
しかし、これらの利得はデータ品質とモデル設計に敏感である。
構成が不十分なキャプションのトレーニングや,パラメータの更新が限定されたトレーニングでは,一般化がサポートされないことがわかった。
同様に、凍結した位置埋め込みのような一般的なアライメントを維持する戦略は、構成的理解を改善しない。
総合的に、構成的理解と長期的理解は、密集した基礎的な記述のトレーニングを通じて、共同で学習できる機能であることがわかった。
これらの課題にもかかわらず、高品質で長大なデータに基づいて訓練されたモデルは、両方のタスクにおいて高い性能を達成でき、VLMの一般化を改善するための実用的なガイダンスを提供する。
関連論文リスト
- Emergence of Text Readability in Vision Language Models [69.10470691283281]
VLM(Vision-Language Models)のトレーニング中に画像内のテキストコンテンツを認識する能力がどのように現れるかを検討する。
画像中のテキスト情報を読み取る能力は、かなりの訓練を繰り返した後、突然現れる。
この遅延は、コントラスト学習が最初に一般的な意味理解を優先し、後にテキスト固有の記号処理が発達する傾向を反映している可能性がある。
論文 参考訳(メタデータ) (2025-06-24T07:35:32Z) - Temporal-Oriented Recipe for Transferring Large Vision-Language Model to Video Understanding [26.932018092345192]
我々は,LVLMの時間的理解に影響を及ぼす重要な構成要素を解明するために,徹底的な実証的研究を行っている。
これらの知見に基づいて、時間指向のトレーニングスキームと大規模インタフェースを含む時間指向のレシピを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:40:25Z) - Causal Graphical Models for Vision-Language Compositional Understanding [36.24185263818946]
提案手法は, 最先端の合成手法を大きなマージンで大幅に上回っていることを示す。
さらに、はるかに大きなデータセットを使用してトレーニングされたメソッドよりも改善されている。
論文 参考訳(メタデータ) (2024-12-12T15:22:03Z) - Barking Up The Syntactic Tree: Enhancing VLM Training with Syntactic Losses [31.85977999591524]
視覚言語モデルは、画像領域と大規模トレーニングデータの単語を暗黙的に関連付けることを学習する。
テキストモダリティ内のリッチな意味的構造と構文的構造は、監督の源として見過ごされている。
階層的構造化学習(HIST)は、追加の人間のアノテーションを使わずに、空間的視覚言語アライメントを強化する。
論文 参考訳(メタデータ) (2024-12-11T05:36:18Z) - STEP: Enhancing Video-LLMs' Compositional Reasoning by Spatio-Temporal Graph-guided Self-Training [87.58996020705258]
Video Large Language Models (Video-LLMs) は近年,ビデオ理解タスクに強い派生性を示している。
ビデオLLMは、多段階の明示的時間的推論を必要とする構成的推論と、オブジェクトの関係、相互作用、イベントに苦労する。
本稿では,ビデオLLMが生ビデオから推論に富んだ微調整データを生成し,自己改善を実現するための,グラフ誘導型自己学習手法STEPを提案する。
論文 参考訳(メタデータ) (2024-11-29T11:54:55Z) - MMCOMPOSITION: Revisiting the Compositionality of Pre-trained Vision-Language Models [85.10375181040436]
本稿では,視覚言語モデルを包括的かつ正確に評価する新しい人間アノテーションベンチマークMMCOMPOSITIONを提案する。
GPT-4oのコンポジション性は,最も優れたオープンソースモデルよりも劣ることがわかった。
論文 参考訳(メタデータ) (2024-10-13T05:35:09Z) - In-Context Learning Improves Compositional Understanding of Vision-Language Models [2.762909189433944]
合成画像理解は、トレーニングデータに存在する物体バイアスのため、かなり難しい課題である。
コントラストモデルと生成モデルを比較し、アーキテクチャの違い、事前学習データ、トレーニングタスクと損失を分析します。
提案手法は,複数の構成的理解データセットにまたがるベースラインモデルより優れている。
論文 参考訳(メタデータ) (2024-07-22T09:03:29Z) - RelationVLM: Making Large Vision-Language Models Understand Visual Relations [66.70252936043688]
本稿では,複数の画像にまたがっても動画内でも,様々なレベルの関係を解釈できる大規模視覚言語モデルであるRelationVLMを提案する。
具体的には,多段階的な関係認識学習手法とそれに対応するデータ構成戦略を考案し,意味的関係を理解する能力を備えた関係VLMを提案する。
論文 参考訳(メタデータ) (2024-03-19T15:01:19Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。