論文の概要: VLHSA: Vision-Language Hierarchical Semantic Alignment for Jigsaw Puzzle Solving with Eroded Gaps
- arxiv url: http://arxiv.org/abs/2509.25202v1
- Date: Wed, 17 Sep 2025 20:40:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 05:29:07.812356
- Title: VLHSA: Vision-Language Hierarchical Semantic Alignment for Jigsaw Puzzle Solving with Eroded Gaps
- Title(参考訳): VLHSA: Eroded GapsによるJigsawのパズル解決のためのビジョンランゲージ階層的セマンティックアライメント
- Authors: Zhuoning Xu, Xinyan Liu,
- Abstract要約: 本稿では,テキストコンテキストを利用した視覚言語フレームワークを提案し,パズルの組立性能を向上させる。
我々のアプローチは、VLHSA(Vision-Language Hierarchical Semantic Alignment)モジュールを中心にしている。
本研究は,マルチモーダルな意味的洞察を取り入れたジグソーパズル解法の新しいパラダイムを確立する。
- 参考スコア(独自算出の注目度): 3.6380495892295173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Jigsaw puzzle solving remains challenging in computer vision, requiring an understanding of both local fragment details and global spatial relationships. While most traditional approaches only focus on visual cues like edge matching and visual coherence, few methods explore natural language descriptions for semantic guidance in challenging scenarios, especially for eroded gap puzzles. We propose a vision-language framework that leverages textual context to enhance puzzle assembly performance. Our approach centers on the Vision-Language Hierarchical Semantic Alignment (VLHSA) module, which aligns visual patches with textual descriptions through multi-level semantic matching from local tokens to global context. Also, a multimodal architecture that combines dual visual encoders with language features for cross-modal reasoning is integrated into this module. Experiments demonstrate that our method significantly outperforms state-of-the-art models across various datasets, achieving substantial improvements, including a 14.2 percentage point gain in piece accuracy. Ablation studies confirm the critical role of the VLHSA module in driving improvements over vision-only approaches. Our work establishes a new paradigm for jigsaw puzzle solving by incorporating multimodal semantic insights.
- Abstract(参考訳): Jigsawパズルの解法はコンピュータビジョンにおいて依然として困難であり、局所的な断片の詳細とグローバルな空間的関係の両方を理解する必要がある。
ほとんどの伝統的なアプローチは、エッジマッチングや視覚的コヒーレンスのような視覚的な手がかりにのみ焦点をあてるが、難解なシナリオ、特に浸食されたギャップパズルにおいて、セマンティックガイダンスのための自然言語記述を探索する手法はほとんどない。
本稿では,テキストコンテキストを利用した視覚言語フレームワークを提案し,パズルの組立性能を向上させる。
VLHSA(Vision-Language Hierarchical Semantic Alignment)モジュールは,局所トークンからグローバルコンテキストへの多段階のセマンティックマッチングを通じて,視覚パッチをテキスト記述と整合させる。
また、デュアルビジュアルエンコーダとクロスモーダル推論のための言語機能を組み合わせたマルチモーダルアーキテクチャをこのモジュールに統合する。
実験により,本手法は様々なデータセットにおける最先端モデルよりも有意に優れており,14.2ポイントの精度向上を含む大幅な改善が達成されている。
アブレーション研究は、VLHSAモジュールが視覚のみのアプローチよりも改善する上で重要な役割を担っていることを証明している。
本研究は,マルチモーダルな意味的洞察を取り入れたジグソーパズル解法の新しいパラダイムを確立する。
関連論文リスト
- GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。
GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。
第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
論文 参考訳(メタデータ) (2025-09-19T14:36:01Z) - Puzzled by Puzzles: When Vision-Language Models Can't Take a Hint [57.73346054360675]
画像、空間配置、記号置換を通じて言語を符号化するリバスパズルは、現在の視覚言語モデル(VLM)に固有の課題をもたらす。
本稿では,現代VLMにおけるレバスパズルの解釈と解決の能力について,多種多様な英語リバスパズルの手書きおよび注釈付きベンチマークを構築して検討する。
論文 参考訳(メタデータ) (2025-05-29T17:59:47Z) - More Pictures Say More: Visual Intersection Network for Open Set Object Detection [4.206612461069489]
オープンセットオブジェクト検出(VINO)のための強力なDETRモデルであるVisual Intersection Networkを導入する。
VINOは、すべての時間ステップにまたがるカテゴリのセマンティックな交差を保存するために、マルチイメージのビジュアルバンクを構築する。
提案手法は,対象カテゴリ意味論と領域意味論のより正確な一致を保証するとともに,事前学習時間とリソース要求を著しく低減する。
論文 参考訳(メタデータ) (2024-08-26T05:52:35Z) - Lyrics: Boosting Fine-grained Language-Vision Alignment and Comprehension via Semantic-aware Visual Objects [11.117055725415446]
LVLM(Large Vision Language Models)は、様々な視覚言語対話シナリオにおいて、印象的なゼロショット機能を示す。
きめ細かい視覚オブジェクト検出がないことは、画像の詳細を理解するのを妨げ、不可分な視覚幻覚や事実的誤りを引き起こす。
リリックス(Lyrics)は、視覚言語アライメントを微粒なクロスモーダル協調からブートストラップする、新しいマルチモーダル事前学習および微調整パラダイムである。
論文 参考訳(メタデータ) (2023-12-08T09:02:45Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。