論文の概要: Inference-Time Structural Reasoning for Compositional Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2603.27349v1
- Date: Sat, 28 Mar 2026 17:41:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.916876
- Title: Inference-Time Structural Reasoning for Compositional Vision-Language Understanding
- Title(参考訳): 構成的視覚言語理解のための推論時間構造推論
- Authors: Amartya Bhattacharya,
- Abstract要約: 視覚言語モデル(VLM)は、画像テキスト検索では優れているが、構成的推論では持続的に失敗する。
アーキテクチャ的に多様性のある4つのVLMをベンチマークした統合評価および拡張フレームワークを提案する。
Qwen3-VL-8B-シンキングはグループスコア62.75を達成し、全てのエンコーダベースのモデルよりはるかに上回っている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) excel at image-text retrieval yet persistently fail at compositional reasoning, distinguishing captions that share the same words but differ in relational structure. We present, a unified evaluation and augmentation framework benchmarking four architecturally diverse VLMs,CLIP, BLIP, LLaVA, and Qwen3-VL-8B-Thinking,on the Winoground benchmark under plain and scene-graph-augmented regimes. We introduce a dependency-based TextSceneGraphParser (spaCy) extracting subject-relation-object triples, and a Graph Asymmetry Scorer using optimal bipartite matching to inject structural relational priors. Caption ablation experiments (subject-object masking and swapping) reveal that Qwen3-VL-8B-Thinking achieves a group score of 62.75, far above all encoder-based models, while a proposed multi-turn SG filtering strategy further lifts it to 66.0, surpassing prior open-source state-of-the-art. We analyze the capability augmentation tradeoff and find that SG augmentation benefits already capable models while providing negligible or negative gains for weaker baselines. Code: https://github.com/amartyacodes/Inference-Time-Structural-Reasoning-for-Compositional-Vision-Languag e-Understanding
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像テキスト検索において優れているが、構成的推論において永続的に失敗し、同じ単語を共有するが関係構造が異なるキャプションを区別する。
本稿では,4つのアーキテクチャに多様性のあるVLM (CLIP, BLIP, LLaVA, Qwen3-VL-8B-Thinking) のベンチマークをWinogroundベンチマーク上で行う。
対象-関係オブジェクト三重項を抽出する依存型TextSceneGraphParser(spaCy)と、最適二分法マッチングを用いたグラフ非対称性スコーラを導入し、構造的リレーショナル前駆体を注入する。
Qwen3-VL-8B-シンキングは全てのエンコーダベースのモデルよりはるかに多い62.75のグループスコアを達成し、提案されたマルチターンSGフィルタリング戦略により66.0に引き上げられ、以前のオープンソース状態を超えた。
我々は,能力増強トレードオフを解析し,SG増強が既に有能なモデルに対して有効であると同時に,より弱いベースラインに対して無視あるいは負の利得を提供することを示す。
コード:https://github.com/amartyacodes/inference-Time-Structural-Reasoning-for-Compositional-Vision-Langua ge-Understanding
関連論文リスト
- Chart Specification: Structural Representations for Incentivizing VLM Reasoning in Chart-to-Code Generation [11.18352269863283]
VLM(Vision-Language Models)は、チャート画像からプロットコードを生成することを約束している。
既存のアプローチは、主に監督された微調整と表面レベルのトークンの模倣に頼っている。
本稿では,テキストの模倣から意味的に根ざした監督へトレーニングを移行させる構造化中間表現であるChart Specificationを提案する。
論文 参考訳(メタデータ) (2026-02-11T14:08:06Z) - Vision-Free Retrieval: Rethinking Multimodal Search with Textual Scene Descriptions [81.33113485830711]
視覚言語モデルに対して,視覚のない単一エンコーダ検索パイプラインを導入する。
VLLM生成した構造化画像記述の助けを借りてテキストからテキストへ移行する。
提案手法は,複数検索および構成性ベンチマークにおいて,最先端のゼロショット性能を実現する。
論文 参考訳(メタデータ) (2025-09-23T16:22:27Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Causal Graphical Models for Vision-Language Compositional Understanding [36.24185263818946]
提案手法は, 最先端の合成手法を大きなマージンで大幅に上回っていることを示す。
さらに、はるかに大きなデータセットを使用してトレーニングされたメソッドよりも改善されている。
論文 参考訳(メタデータ) (2024-12-12T15:22:03Z) - 3VL: Using Trees to Improve Vision-Language Models' Interpretability [40.678288227161936]
VLM(Vision-Language Model)は、画像とテキストの表現の整列に有効であることが証明されており、多くの下流タスクに転送すると、より優れたゼロショット結果が得られる。
これらの表現は、オブジェクトの属性、状態、異なるオブジェクト間の関係を認識するなど、構成言語概念(CLC)を理解する際のいくつかの重要な欠点に悩まされる。
本稿では,木拡張ビジョンランゲージ(3VL)モデルのアーキテクチャとトレーニング手法を紹介する。
論文 参考訳(メタデータ) (2023-12-28T20:26:03Z) - Text encoders bottleneck compositionality in contrastive vision-language
models [76.2406963762722]
単一ベクトルのテキスト表現からキャプションを再構築することを目的としたテキストのみのリカバリプローブを訓練する。
CLIPのテキストエンコーダは、より構成的な入力では不十分であることがわかった。
結果は、テキストのみの回復性は、構成因子をモデル化するのに必要である(しかし十分ではない)ことを示唆している。
論文 参考訳(メタデータ) (2023-05-24T08:48:44Z) - Semantic Compositional Learning for Low-shot Scene Graph Generation [122.51930904132685]
多くのシーングラフ生成(SGG)モデルは、トレーニングに限定された注釈付き関係トリプルのみを使用する。
本稿では,新たな意味論的構成学習戦略を提案する。
最近の3つのSGGモデルでは、我々の戦略を追加することで、その性能が50%近く向上する。
論文 参考訳(メタデータ) (2021-08-19T10:13:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。