論文の概要: Chatting with Images for Introspective Visual Thinking
- arxiv url: http://arxiv.org/abs/2602.11073v2
- Date: Thu, 12 Feb 2026 16:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 16:43:38.3173
- Title: Chatting with Images for Introspective Visual Thinking
- Title(参考訳): イントロスペクティブ・ビジュアル思考のための画像のマッチング
- Authors: Junfei Wu, Jian Guan, Qiang Liu, Shu Wu, Liang Wang, Wei Wu, Tieniu Tan,
- Abstract要約: 「画像の変更」は、視覚操作を言語誘導の機能変調として再編成する新しいフレームワークである。
表現型言語プロンプトの指導の下で、モデルは複数の画像領域上で動的に共同再符号化を行う。
ViLaVTは、複雑なマルチイメージとビデオベースの空間推論タスクにおいて、強力で一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 50.7747647794877
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current large vision-language models (LVLMs) typically rely on text-only reasoning based on a single-pass visual encoding, which often leads to loss of fine-grained visual information. Recently the proposal of ''thinking with images'' attempts to alleviate this limitation by manipulating images via external tools or code; however, the resulting visual states are often insufficiently grounded in linguistic semantics, impairing effective cross-modal alignment - particularly when visual semantics or geometric relationships must be reasoned over across distant regions or multiple images. To address these challenges, we propose ''chatting with images'', a new framework that reframes visual manipulation as language-guided feature modulation. Under the guidance of expressive language prompts, the model dynamically performs joint re-encoding over multiple image regions, enabling tighter coupling between linguistic reasoning and visual state updates. We instantiate this paradigm in ViLaVT, a novel LVLM equipped with a dynamic vision encoder explicitly designed for such interactive visual reasoning, and trained it with a two-stage curriculum combining supervised fine-tuning and reinforcement learning to promote effective reasoning behaviors. Extensive experiments across eight benchmarks demonstrate that ViLaVT achieves strong and consistent improvements, with particularly pronounced gains on complex multi-image and video-based spatial reasoning tasks.
- Abstract(参考訳): 現在の大きな視覚言語モデル(LVLM)は、通常、シングルパスの視覚符号化に基づくテキストのみの推論に依存しており、しばしば細かい視覚情報が失われる。
近年の「イメージで考える」という提案は、外部のツールやコードを介して画像を操作することで、この制限を緩和しようとする試みであるが、結果の視覚状態は言語意味論では不十分であり、特に視覚的意味論や幾何学的関係が遠くの地域や複数の画像にまたがって説明されなければならない場合に、効果的なモーダル的アライメントを損なうことがしばしばある。
これらの課題に対処するために,視覚操作を言語誘導機能変調として再編成する新しいフレームワークである'chatting with image'を提案する。
表現的言語プロンプトの指導の下で、モデルは複数の画像領域をまたいだ共同再符号化を動的に実行し、言語的推論と視覚的状態更新の密結合を可能にする。
このようなインタラクティブな視覚推論のために設計された動的視覚エンコーダを備えた新しいLVLMであるViLaVTにおいて、このパラダイムをインスタンス化し、教師付き微調整と強化学習を組み合わせた2段階のカリキュラムを用いて学習し、効果的な推論行動を促進する。
8つのベンチマークにわたる大規模な実験により、ViLaVTは、特に複雑なマルチイメージとビデオベースの空間推論タスクにおいて、強力で一貫した改善を達成している。
関連論文リスト
- Integrating Visual Interpretation and Linguistic Reasoning for Math Problem Solving [61.992824291296444]
現在の大型視覚言語モデル(LVLM)は、通常、大型言語モデル(LLM)のテキスト埋め込みと視覚的特徴をリンクするためのコネクタモジュールを使用する。
本稿では,エンド・ツー・エンドの視覚言語推論モデルをトレーニングする代わりに,分離された推論フレームワークの開発を提唱する。
論文 参考訳(メタデータ) (2025-05-23T08:18:00Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Visually-Situated Natural Language Understanding with Contrastive
Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。
我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文 参考訳(メタデータ) (2023-05-24T11:59:13Z) - Multi-Modal Representation Learning with Text-Driven Soft Masks [48.19806080407593]
自己教師型学習フレームワークにおける視覚言語表現学習手法を提案する。
画像中の領域をソフトメイキングすることで、画像テキストマッチング(ITM)タスクの多様な特徴を生成する。
マルチモーダルエンコーダを用いて単語条件の視覚的注意を計算し,各単語に関連する領域を同定する。
論文 参考訳(メタデータ) (2023-04-03T05:07:49Z) - Two-stage Visual Cues Enhancement Network for Referring Image
Segmentation [89.49412325699537]
Referring Image (RIS)は、ある自然言語表現によって参照される画像から対象のオブジェクトをセグメント化することを目的としている。
本稿では,2段階のビジュアルキュー拡張ネットワーク(TV-Net)を考案し,この問題に対処する。
この2段階の強化により,提案するTV-Netは,自然言語表現と画像間のきめ細かいマッチング動作の学習において,より優れた性能を享受できる。
論文 参考訳(メタデータ) (2021-10-09T02:53:39Z) - Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。
我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。
生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文 参考訳(メタデータ) (2020-06-21T14:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。