論文の概要: Leveraging Textual Compositional Reasoning for Robust Change Captioning
- arxiv url: http://arxiv.org/abs/2511.22903v1
- Date: Fri, 28 Nov 2025 06:11:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.783836
- Title: Leveraging Textual Compositional Reasoning for Robust Change Captioning
- Title(参考訳): ロバスト・チェンジ・キャプションのためのテキスト合成推論の活用
- Authors: Kyu Ri Park, Jiyoung Park, Seong Tae Kim, Hong Joo Lee, Jung Uk Kim,
- Abstract要約: 我々は,変化理解を高めるために補完的なテキストキューを統合する新しいフレームワークであるCORTEXを提案する。
CORTEXは3つの重要なモジュールから構成される: (i) 画像間の低レベルの視覚的差異を識別する画像レベル変化検出器、 (ii) VLMを使って視覚的特徴を暗黙的に記述する合成推論記述を生成するReasoning-aware Text extract (RTE) モジュール、 (iii) 視覚的特徴とテキスト的特徴を微粒なリレーショナル推論のために整列するImage-Text Dual Alignment (ITDA) モジュール。
- 参考スコア(独自算出の注目度): 28.774190149120134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Change captioning aims to describe changes between a pair of images. However, existing works rely on visual features alone, which often fail to capture subtle but meaningful changes because they lack the ability to represent explicitly structured information such as object relationships and compositional semantics. To alleviate this, we present CORTEX (COmpositional Reasoning-aware TEXt-guided), a novel framework that integrates complementary textual cues to enhance change understanding. In addition to capturing cues from pixel-level differences, CORTEX utilizes scene-level textual knowledge provided by Vision Language Models (VLMs) to extract richer image text signals that reveal underlying compositional reasoning. CORTEX consists of three key modules: (i) an Image-level Change Detector that identifies low-level visual differences between paired images, (ii) a Reasoning-aware Text Extraction (RTE) module that use VLMs to generate compositional reasoning descriptions implicit in visual features, and (iii) an Image-Text Dual Alignment (ITDA) module that aligns visual and textual features for fine-grained relational reasoning. This enables CORTEX to reason over visual and textual features and capture changes that are otherwise ambiguous in visual features alone.
- Abstract(参考訳): 変更キャプションは、画像間の変更を記述することを目的としている。
しかし、既存の作品は視覚的特徴のみに依存しており、オブジェクトの関係や構成の意味論のような明示的に構造化された情報を表現する能力が欠けているため、微妙だが意味のある変化を捉えることができないことが多い。
これを軽減するために,CORTEX(COmpositional Reasoning-aware-Aware-TEXt-guided)を新たに提案する。
CORTEXは、画素レベルの差から手がかりを捉えることに加えて、視覚言語モデル(VLM)が提供するシーンレベルのテキスト知識を利用して、基礎となる構成的推論を明らかにするリッチな画像テキスト信号を抽出する。
CORTEXは3つの主要なモジュールから構成される。
一 対画像の低レベルの視覚的差異を識別する画像レベルの変化検出装置。
(II)視覚的特徴に暗黙的な構成的推論記述を生成するためにVLMを使用する推論対応テキスト抽出(RTE)モジュール
(iii)細粒度リレーショナル推論のための視覚的特徴とテキスト的特徴を整列する画像テキストデュアルアライメント(ITDA)モジュール。
これにより、CORTEXは視覚的特徴とテキスト的特徴を推論し、それ以外は視覚的特徴だけで曖昧な変化をキャプチャできる。
関連論文リスト
- Constrained Prompt Enhancement for Improving Zero-Shot Generalization of Vision-Language Models [57.357091028792325]
ウェブスケールのデータに基づいて事前訓練された視覚言語モデル(VLM)は、ゼロショットの一般化を約束するが、しばしば意味的ミスアライメントに悩まされる。
視覚・テクストアライメントを改善するために,制約付きプロンプトエンハンスメント(CPE)法を提案する。
提案手法はTGSSG(Topology-Guided Synonymous Semantic Generation)とCADRS(Calegory-Agnostic Discriminative Region Selection)の2つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2025-08-24T15:45:22Z) - SmartCLIP: Modular Vision-language Alignment with Identification Guarantees [59.16312652369709]
Contrastive Language-Image Pre-Traiing (CLIP)citepradford2021 Learningは、コンピュータビジョンとマルチモーダル学習において重要なモデルとして登場した。
CLIPは、多くの画像テキストデータセットにおける潜在的な情報ミスアライメントに苦労し、絡み合った表現に悩まされている。
モジュラー方式で、最も関連性の高い視覚的およびテキスト的表現を特定し、調整する新しいアプローチである。
論文 参考訳(メタデータ) (2025-07-29T22:26:20Z) - OFFSET: Segmentation-based Focus Shift Revision for Composed Image Retrieval [59.377821673653436]
Composed Image Retrieval (CIR)は、ユーザの複雑な検索要求を柔軟に表現することができる。
1) 視覚データにおける支配的部分とノイズ的部分の不均一性は無視され、クエリー特徴が劣化する。
本研究は、主部分分割と二重焦点写像という2つのモジュールからなる集中写像に基づく特徴抽出器を提案する。
論文 参考訳(メタデータ) (2025-07-08T03:27:46Z) - Vision-Aware Text Features in Referring Image Segmentation: From Object Understanding to Context Understanding [26.768147543628096]
本稿では,人間の認知プロセスに触発された対象と文脈の理解を強調する新しい枠組みを提案する。
提案手法は,3つのベンチマークデータセットにおいて,大幅な性能向上を実現する。
論文 参考訳(メタデータ) (2024-04-12T16:38:48Z) - VIXEN: Visual Text Comparison Network for Image Difference Captioning [58.16313862434814]
画像間の視覚的差異をテキストで簡潔に要約する手法であるVIXENを提案する。
提案するネットワークは,事前学習された大規模言語モデルに対するソフトプロンプトを構築し,画像特徴を一対にマッピングする。
論文 参考訳(メタデータ) (2024-02-29T12:56:18Z) - Text-guided Image Restoration and Semantic Enhancement for Text-to-Image Person Retrieval [12.057465578064345]
テキスト・ツー・イメージ・パーソナリティ検索(TIPR)の目的は、与えられたテキスト記述に従って特定の人物画像を取得することである。
本稿では,人物画像と対応するテキスト間のきめ細かいインタラクションとアライメントを構築するための新しいTIPRフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-18T08:23:46Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。