論文の概要: Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought
- arxiv url: http://arxiv.org/abs/2602.23959v1
- Date: Fri, 27 Feb 2026 12:04:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.409549
- Title: Thinking with Images as Continuous Actions: Numerical Visual Chain-of-Thought
- Title(参考訳): イメージを連続的なアクションとして考える:数値的視覚的連鎖
- Authors: Kesen Zhao, Beier Zhu, Junbao Zhou, Xingyu Zhu, Zhongqi Yue, Hanwang Zhang,
- Abstract要約: 本稿では,連続的な数値座標を用いたMLLM画像の推論を可能にするフレームワークを提案する。
NV-CoTはMLLM作用空間を離散語彙トークンから連続ユークリッド空間へと拡張する。
3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 55.65577137924979
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multimodal large language models (MLLMs) increasingly rely on visual chain-of-thought to perform region-grounded reasoning over images. However, existing approaches ground regions via either textified coordinates-causing modality mismatch and semantic fragmentation or fixed-granularity patches that both limit precise region selection and often require non-trivial architectural changes. In this paper, we propose Numerical Visual Chain-of-Thought (NV-CoT), a framework that enables MLLMs to reason over images using continuous numerical coordinates. NV-CoT expands the MLLM action space from discrete vocabulary tokens to a continuous Euclidean space, allowing models to directly generate bounding-box coordinates as actions with only minimal architectural modification. The framework supports both supervised fine-tuning and reinforcement learning. In particular, we replace categorical token policies with a Gaussian (or Laplace) policy over coordinates and introduce stochasticity via reparameterized sampling, making NV-CoT fully compatible with GRPO-style policy optimization. Extensive experiments on three benchmarks against eight representative visual reasoning baselines demonstrate that NV-CoT significantly improves localization precision and final answer accuracy, while also accelerating training convergence, validating the effectiveness of continuous-action visual reasoning in MLLMs. The code is available in https://github.com/kesenzhao/NV-CoT.
- Abstract(参考訳): 近年のマルチモーダル大言語モデル (MLLM) は、画像上の領域的推論を行うために、視覚的連鎖にますます依存している。
しかし、既存のアプローチでは、テキスト化された座標を用いたモダリティミスマッチとセマンティックフラグメンテーション、あるいは正確な領域選択を制限し、しばしば非自明なアーキテクチャ変更を必要とする固定粒度パッチのいずれかを介して、基底領域にアプローチする。
本稿では,MLLMが連続的な数値座標を用いて画像を解析できるフレームワークである数値ビジュアル・チェーン・オブ・ソート(NV-CoT)を提案する。
NV-CoTはMLLMのアクション空間を離散ボキャブラリトークンから連続ユークリッド空間に拡張し、モデルが最小限のアーキテクチャ修正のみでアクションとしてバウンディングボックス座標を直接生成できるようにする。
このフレームワークは教師付き微調整と強化学習の両方をサポートしている。
特に、分類トークンポリシーを座標上のガウス(あるいはラプラス)ポリシーに置き換え、再パラメータ化サンプリングにより確率性を導入し、NV-CoTをGRPO方式のポリシー最適化と完全に互換性を持たせる。
8つの視覚的推論ベースラインに対する3つのベンチマーク実験により、NV-CoTは局所化精度と最終回答精度を著しく向上する一方で、トレーニング収束を加速し、MLLMにおける連続的な視覚的推論の有効性を検証した。
コードはhttps://github.com/kesenzhao/NV-CoT.comで公開されている。
関連論文リスト
- Modality Gap-Driven Subspace Alignment Training Paradigm For Multimodal Large Language Models [84.78794648147608]
永続的な幾何学的異常であるモダリティギャップが残っている。
このギャップを埋める以前のアプローチは、過度に単純化された等方的仮定によってほとんど制限されている。
固定フレームモダリティギャップ理論(英語版)を提案し、モダリティギャップを安定バイアスと異方性残差に分解する。
次に、トレーニング不要なモダリティアライメント戦略であるReAlignを紹介します。
論文 参考訳(メタデータ) (2026-02-02T13:59:39Z) - Boosting Point-supervised Temporal Action Localization via Text Refinement and Alignment [66.80402022104074]
本稿では,視覚記述からテキスト特徴を効果的に活用し,意味的に豊かな視覚特徴を補完するテキスト認識・アライメント(TRA)フレームワークを提案する。
これは、PTR(Point-based Text Refinement Module)とPMA(Point-based Multimodal Alignment Module)の2つの新しいモジュールを設計することで実現される。
論文 参考訳(メタデータ) (2026-02-01T14:35:46Z) - GRASP: Guided Region-Aware Sparse Prompting for Adapting MLLMs to Remote Sensing [50.961694646995376]
GRASP(Guid Region-Aware Sparse Prompting)と呼ばれるパラメータ効率細調整(PEFT)戦略を提案する。
GRASPは、凍結した視覚的トークングリッドから抽出された空間ブロックに関連する空間的構造化されたソフトプロンプトを導入する。
複数のRSVQAベンチマークの実験では、GRASPは既存の微調整やプロンプトベースの手法と比較して競争性能が向上している。
論文 参考訳(メタデータ) (2026-01-23T10:12:59Z) - GeoMotionGPT: Geometry-Aligned Motion Understanding with Large Language Models [23.159388800893964]
両モジュラリティが統一幾何基底を共有する場合、アライメントが最も効果的であると主張する。
我々は、Gumbel-Softmaxを用いたデコーダのみの量子化器を用いて、微分可能なトレーニングとバランスの取れたコードブックの使用について検討する。
我々のフレームワークは現在の最先端手法よりも20%の性能向上を実現している。
論文 参考訳(メタデータ) (2026-01-12T15:14:29Z) - CLNet: Cross-View Correspondence Makes a Stronger Geo-Localizationer [48.52152634356309]
本稿では,異なるビュー間の意味的および幾何学的ギャップを明示的に橋渡しする,CLNetと呼ばれる通信対応機能改善フレームワークを提案する。
CLNetはビューアライメントプロセスを3つの学習可能な補完モジュールに分解する。
提案するCLNetは、より優れた解釈性と一般化性を提供しながら、最先端の性能を実現する。
論文 参考訳(メタデータ) (2025-12-16T16:31:41Z) - SEPS: Semantic-enhanced Patch Slimming Framework for fine-grained cross-modal alignment [8.657941729790599]
本稿では,パッチの冗長性と曖昧性に体系的に対処するセマンティック・エンハンスト・パッチ・スライミング(SEPS)フレームワークを紹介する。
提案手法では,密文と疎文の両方から統合されたセマンティクスを統合するための2段階の機構を用いて,視覚的パッチを識別する。
Flickr30KとMS-COCOデータセットの実験は、SEPSが優れたパフォーマンスを達成することを検証する。
論文 参考訳(メタデータ) (2025-11-03T09:41:32Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - MedGround-R1: Advancing Medical Image Grounding via Spatial-Semantic Rewarded Group Relative Policy Optimization [19.70803794316208]
医用画像グラウンドディング(MIG)は、テキスト記述に基づいて、医療画像内の特定の領域をローカライズする。
MIGの既存のビジョンランゲージモデル(VLM)は、大量のチェーン・オブ・ソート(CoT)推論アノテーションを持つスーパービジョンファインチューニング(SFT)に依存していることが多い。
本研究では,CoT推論アノテーションを使わずにモデルをトレーニングするための空間意味的回帰グループ相対ポリシー最適化を提案する。
論文 参考訳(メタデータ) (2025-07-01T21:51:42Z) - VLM-R$^3$: Region Recognition, Reasoning, and Refinement for Enhanced Multimodal Chain-of-Thought [51.43082554363725]
textbfVLM-R$3$ (textbfVisual textbfLanguage textbfModel with textbfRegion textbfRecognition and textbfReasoning) はMLLMに付加的な視覚的証拠が必要な場合にエフェクトを決定する機能を提供するフレームワークである。
MathVista、ScienceQA、その他のベンチマークの実験は、VLM-R$3$が新しいものを設定することを示している
論文 参考訳(メタデータ) (2025-05-22T03:50:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。