論文の概要: Chatting with Images for Introspective Visual Thinking
- arxiv url: http://arxiv.org/abs/2602.11073v1
- Date: Wed, 11 Feb 2026 17:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.257183
- Title: Chatting with Images for Introspective Visual Thinking
- Title(参考訳): イントロスペクティブ・ビジュアル思考のための画像のマッチング
- Authors: Junfei Wu, Jian Guan, Qiang Liu, Shu Wu, Liang Wang, Wei Wu, Tienie Tan,
- Abstract要約: 「画像の変更」は、視覚操作を言語誘導の機能変調として再編成する新しいフレームワークである。
表現型言語プロンプトの指導の下で、モデルは複数の画像領域上で動的に共同再符号化を行う。
ViLaVTは、複雑なマルチイメージとビデオベースの空間推論タスクにおいて、強力で一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 31.018267135012948
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current large vision-language models (LVLMs) typically rely on text-only reasoning based on a single-pass visual encoding, which often leads to loss of fine-grained visual information. Recently the proposal of ''thinking with images'' attempts to alleviate this limitation by manipulating images via external tools or code; however, the resulting visual states are often insufficiently grounded in linguistic semantics, impairing effective cross-modal alignment - particularly when visual semantics or geometric relationships must be reasoned over across distant regions or multiple images. To address these challenges, we propose ''chatting with images'', a new framework that reframes visual manipulation as language-guided feature modulation. Under the guidance of expressive language prompts, the model dynamically performs joint re-encoding over multiple image regions, enabling tighter coupling between linguistic reasoning and visual state updates. We instantiate this paradigm in ViLaVT, a novel LVLM equipped with a dynamic vision encoder explicitly designed for such interactive visual reasoning, and trained it with a two-stage curriculum combining supervised fine-tuning and reinforcement learning to promote effective reasoning behaviors. Extensive experiments across eight benchmarks demonstrate that ViLaVT achieves strong and consistent improvements, with particularly pronounced gains on complex multi-image and video-based spatial reasoning tasks.
- Abstract(参考訳): 現在の大きな視覚言語モデル(LVLM)は、通常、シングルパスの視覚符号化に基づくテキストのみの推論に依存しており、しばしば細かい視覚情報が失われる。
近年の「イメージで考える」という提案は、外部のツールやコードを介して画像を操作することで、この制限を緩和しようとする試みであるが、結果の視覚状態は言語意味論では不十分であり、特に視覚的意味論や幾何学的関係が遠くの地域や複数の画像にまたがって説明されなければならない場合に、効果的なモーダル的アライメントを損なうことがしばしばある。
これらの課題に対処するために,視覚操作を言語誘導機能変調として再編成する新しいフレームワークである'chatting with image'を提案する。
表現的言語プロンプトの指導の下で、モデルは複数の画像領域をまたいだ共同再符号化を動的に実行し、言語的推論と視覚的状態更新の密結合を可能にする。
このようなインタラクティブな視覚推論のために設計された動的視覚エンコーダを備えた新しいLVLMであるViLaVTにおいて、このパラダイムをインスタンス化し、教師付き微調整と強化学習を組み合わせた2段階のカリキュラムを用いて学習し、効果的な推論行動を促進する。
8つのベンチマークにわたる大規模な実験により、ViLaVTは、特に複雑なマルチイメージとビデオベースの空間推論タスクにおいて、強力で一貫した改善を達成している。
関連論文リスト
- Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。