論文の概要: SIFThinker: Spatially-Aware Image Focus for Visual Reasoning
- arxiv url: http://arxiv.org/abs/2508.06259v2
- Date: Thu, 14 Aug 2025 10:34:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 13:42:23.569606
- Title: SIFThinker: Spatially-Aware Image Focus for Visual Reasoning
- Title(参考訳): SIFThinker:ビジュアル推論のための空間認識画像
- Authors: Zhangquan Chen, Ruihui Zhao, Chuwei Luo, Mingze Sun, Xinlei Yu, Yangyang Kang, Ruqi Huang,
- Abstract要約: SIFThinkerは、人間の視覚知覚を模倣する空間的に認識可能な「思考とイメージ」フレームワークである。
SIFThinkerは、奥行き強化されたバウンディングボックスと自然言語をインターリーブすることによって、注目の補正と画像領域の強調を可能にする。
実験では、SIFThinkerは空間的理解ときめ細かい視覚知覚において最先端の手法より優れている。
- 参考スコア(独自算出の注目度): 9.852988236445087
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multimodal large language models (MLLMs) still face significant challenges in complex visual tasks (e.g., spatial understanding, fine-grained perception). Prior methods have tried to incorporate visual reasoning, however, they fail to leverage attention correction with spatial cues to iteratively refine their focus on prompt-relevant regions. In this paper, we introduce SIFThinker, a spatially-aware "think-with-images" framework that mimics human visual perception. Specifically, SIFThinker enables attention correcting and image region focusing by interleaving depth-enhanced bounding boxes and natural language. Our contributions are twofold: First, we introduce a reverse-expansion-forward-inference strategy that facilitates the generation of interleaved image-text chains of thought for process-level supervision, which in turn leads to the construction of the SIF-50K dataset. Besides, we propose GRPO-SIF, a reinforced training paradigm that integrates depth-informed visual grounding into a unified reasoning pipeline, teaching the model to dynamically correct and focus on prompt-relevant regions. Extensive experiments demonstrate that SIFThinker outperforms state-of-the-art methods in spatial understanding and fine-grained visual perception, while maintaining strong general capabilities, highlighting the effectiveness of our method. Code: https://github.com/zhangquanchen/SIFThinker.
- Abstract(参考訳): 現在のマルチモーダル大言語モデル(MLLM)は、複雑な視覚的タスク(例えば、空間的理解、きめ細かい知覚)において重要な課題に直面している。
従来の手法では視覚的推論を取り入れようとしたが、空間的手がかりによる注意補正の活用に失敗し、プロンプト関連領域への焦点を反復的に洗練する。
本稿では,人間の視覚知覚を模倣する空間認識型「思考とイメージ」フレームワークであるSIFThinkerを紹介する。
具体的には、SIFThinkerは、奥行き強化された境界ボックスと自然言語をインターリーブすることによって、注目の補正と画像領域の強調を可能にする。
まず,SIF-50Kデータセットの構築に繋がるプロセスレベルの監視のために,思考のインターリーブされたイメージテキストチェーンの生成を容易にする,逆展開-フォワード推論戦略を導入する。
さらに,深度インフォームド・ビジュアルグラウンドを統一推論パイプラインに統合する強化トレーニングパラダイムGRPO-SIFを提案する。
SIFThinkerは空間的理解と微粒な視覚知覚において最先端の手法より優れており,高い汎用能力を保ちながら,本手法の有効性を強調している。
コード:https://github.com/zhangquanchen/SIFThinker
関連論文リスト
- Reinforcing Spatial Reasoning in Vision-Language Models with Interwoven Thinking and Visual Drawing [62.447497430479174]
空間における推論への描画は、視覚空間における基本的な描画操作を通じてLVLMを推論できる新しいパラダイムである。
我々のモデルはVILASRと呼ばれ、様々な空間推論ベンチマークで既存の手法より一貫して優れています。
論文 参考訳(メタデータ) (2025-06-11T17:41:50Z) - Align and Surpass Human Camouflaged Perception: Visual Refocus Reinforcement Fine-Tuning [18.13538667261998]
現在のマルチモーダルモデルは、背景に視覚的に同化されている物体を特定する際に、人間の視覚システムと顕著な相違を示す。
我々は、人間の視覚的カモフラージュされた知覚を段階的に再現し、視覚的隠蔽コンテンツを反復的に再焦点する視覚システムを構築した。
論文 参考訳(メタデータ) (2025-05-26T07:27:18Z) - Why Is Spatial Reasoning Hard for VLMs? An Attention Mechanism Perspective on Focus Areas [52.478956204238315]
機械的解釈可能性のレンズによる空間的推論の課題について検討する。
空間的推論の成功は、実際の物体の位置と注意を一致させるモデルの能力と強く相関している。
本研究の目的は,ADAPTVISを用いて,信頼性の高い地域への注意を喚起することである。
論文 参考訳(メタデータ) (2025-03-03T17:57:03Z) - Improving Vision-and-Language Reasoning via Spatial Relations Modeling [30.477235227733928]
ビジュアルコモンセンス推論(VCR)は、難しいマルチモーダルタスクである。
提案手法は,より空間的な文脈を維持するために表現を導くことができる。
VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-09T11:54:55Z) - Learned Image Reasoning Prior Penetrates Deep Unfolding Network for
Panchromatic and Multi-Spectral Image Fusion [45.28120834593148]
本稿では,パンシャーピング作業に適した画像推論を行う新しいモデル駆動型深層展開フレームワークを提案する。
我々のフレームワークは、洞察に富んだデザインでマスキングされたオートエンコーダのコンテンツ推論能力によって動機付けられている。
私たちのフレームワークのユニークな点は、全体論的学習プロセスが、パン・シャーピングタスクの根底にある固有の物理的メカニズムと明確に統合されていることです。
論文 参考訳(メタデータ) (2023-08-30T15:15:31Z) - A domain adaptive deep learning solution for scanpath prediction of
paintings [66.46953851227454]
本稿では,ある絵画の視覚的体験における視聴者の眼球運動分析に焦点を当てた。
我々は、人間の視覚的注意を予測するための新しいアプローチを導入し、人間の認知機能に影響を及ぼす。
提案した新しいアーキテクチャは、画像を取り込んでスキャンパスを返す。
論文 参考訳(メタデータ) (2022-09-22T22:27:08Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - SGEITL: Scene Graph Enhanced Image-Text Learning for Visual Commonsense
Reasoning [61.57887011165744]
マルチモーダルトランスフォーマーはVisual Commonsense Reasoningのタスクにおいて大きな進歩を遂げた。
視覚的なシーングラフを常識的推論に組み込むためのScene Graph Enhanced Image-Text Learningフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-16T03:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。