論文の概要: Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.15966v1
- Date: Wed, 21 May 2025 19:35:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:47.886527
- Title: Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning
- Title(参考訳): Pixel Reasoner:好奇心駆動型強化学習によるPixel-Space Reasoningのインセンティブ
- Authors: Alex Su, Haozhe Wang, Weimin Ren, Fangzhen Lin, Wenhu Chen,
- Abstract要約: 連鎖推論は、大規模言語モデルの性能を大幅に改善した。
画素空間における推論の概念を紹介する。
このアプローチが視覚言語モデルを大幅に改善することを示します。
- 参考スコア(独自算出の注目度): 39.66636859076594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chain-of-thought reasoning has significantly improved the performance of Large Language Models (LLMs) across various domains. However, this reasoning process has been confined exclusively to textual space, limiting its effectiveness in visually intensive tasks. To address this limitation, we introduce the concept of reasoning in the pixel-space. Within this novel framework, Vision-Language Models (VLMs) are equipped with a suite of visual reasoning operations, such as zoom-in and select-frame. These operations enable VLMs to directly inspect, interrogate, and infer from visual evidences, thereby enhancing reasoning fidelity for visual tasks. Cultivating such pixel-space reasoning capabilities in VLMs presents notable challenges, including the model's initially imbalanced competence and its reluctance to adopt the newly introduced pixel-space operations. We address these challenges through a two-phase training approach. The first phase employs instruction tuning on synthesized reasoning traces to familiarize the model with the novel visual operations. Following this, a reinforcement learning (RL) phase leverages a curiosity-driven reward scheme to balance exploration between pixel-space reasoning and textual reasoning. With these visual operations, VLMs can interact with complex visual inputs, such as information-rich images or videos to proactively gather necessary information. We demonstrate that this approach significantly improves VLM performance across diverse visual reasoning benchmarks. Our 7B model, \model, achieves 84\% on V* bench, 74\% on TallyQA-Complex, and 84\% on InfographicsVQA, marking the highest accuracy achieved by any open-source model to date. These results highlight the importance of pixel-space reasoning and the effectiveness of our framework.
- Abstract(参考訳): 思考の連鎖推論は、様々な領域にわたる大規模言語モデル(LLM)の性能を大幅に改善した。
しかし、この推論プロセスはテキスト空間のみに限られており、視覚的に集中したタスクにおけるその効果を制限している。
この制限に対処するために、画素空間における推論の概念を導入する。
この新しいフレームワークの中では、VLM(Vision-Language Models)はズームインやセレクトフレームといった視覚的推論操作のスイートを備えている。
これらの操作により、VLMは視覚的エビデンスを直接検査、尋問、推測することができ、視覚的タスクに対する推論忠実性を高めることができる。
VLMにおけるそのようなピクセル空間推論能力の育成は、当初不均衡だった能力や、新しく導入されたピクセル空間の操作を採用することの難しさなど、顕著な課題を呈している。
2段階のトレーニングアプローチによって,これらの課題に対処する。
第1フェーズでは、新しい視覚操作でモデルを親しみやすいように、合成された推論トレースをチューニングする。
これに続いて、強化学習(RL)フェーズは好奇心駆動型報酬スキームを利用して、画素空間推論とテキスト推論の間の探索のバランスをとる。
これらの視覚操作により、VLMは情報豊富な画像やビデオなどの複雑な視覚入力と対話して、必要な情報を積極的に収集することができる。
本手法により,様々な視覚的推論ベンチマークにおいて,VLMの性能が大幅に向上することが実証された。
我々の 7B モデルである \model は V* ベンチで 84 %,TallyQA-complex で 74 %,InfographicsVQA で 84 % を達成し,これまでのどのオープンソースモデルでも 84 % を達成している。
これらの結果は,画素空間推論の重要性とフレームワークの有効性を浮き彫りにした。
関連論文リスト
- Response Wide Shut: Surprising Observations in Basic Vision Language Model Capabilities [30.176918208200604]
VLM(Vision-Language Models)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
これらのモデルは高い能力を持つが、いくつかの基本的な視覚的理解スキルが欠けていることが示されている。
本稿では,基本的な視覚課題におけるSoTA VLMの限界を理解することを目的とする。
論文 参考訳(メタデータ) (2024-08-13T08:26:32Z) - What Do VLMs NOTICE? A Mechanistic Interpretability Pipeline for Gaussian-Noise-free Text-Image Corruption and Evaluation [16.033361754660316]
視覚言語モデル(VLM)における可読性評価パイプライン
SVO-Probes、MIT-States、Facial Expression Recognitionデータセットに関する実験により、VLM意思決定における重要な洞察が明らかになった。
この研究は、より透明で解釈可能なマルチモーダルシステムへの道を開いた。
論文 参考訳(メタデータ) (2024-06-24T05:13:19Z) - Harnessing Vision-Language Pretrained Models with Temporal-Aware Adaptation for Referring Video Object Segmentation [34.37450315995176]
現在の参照ビデオオブジェクト(RVOS)メソッドは通常、バックボーンとして独立して事前訓練された視覚と言語モデルを使用する。
画素レベルの予測に事前学習した表現を適応させる時間認識型プロンプトチューニング手法を提案する。
提案手法は最先端のアルゴリズムに対して良好に動作し,強力な一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-17T08:14:22Z) - Fine-Tuning Large Vision-Language Models as Decision-Making Agents via Reinforcement Learning [79.38140606606126]
強化学習(RL)を用いた視覚言語モデル(VLM)を微調整するアルゴリズムフレームワークを提案する。
我々のフレームワークはタスク記述を提供し、次にVLMにチェーン・オブ・シント(CoT)推論を生成するよう促す。
提案手法は,VLMエージェントの様々なタスクにおける意思決定能力を向上させる。
論文 参考訳(メタデータ) (2024-05-16T17:50:19Z) - Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。
この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。
実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文 参考訳(メタデータ) (2024-03-19T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。