論文の概要: Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
- arxiv url: http://arxiv.org/abs/2602.13310v1
- Date: Tue, 10 Feb 2026 03:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.841752
- Title: Visual Para-Thinker: Divide-and-Conquer Reasoning for Visual Comprehension
- Title(参考訳): Visual Para-Thinker: 視覚的理解のための分断とコンカレント推論
- Authors: Haoran Xu, Hongyu Wang, Jiaze Li, Shunpeng Chen, Zizhao Tong, Jianzhong Ju, Zhenbo Luo, Jian Luan,
- Abstract要約: MLLMの最初の並列推論フレームワークであるVisual Para-Thinkerを紹介する。
経路独立性を維持し,推論における多様性を促進するため,LPRoPEとPa-Attentionを統合した。
V*、CountBench、RefCOCO、HalusionBenchといったベンチマークデータセットの実証的な結果によると、Visual Para-Thinkerは、並列推論の利点をビジュアルドメインに拡張することに成功している。
- 参考スコア(独自算出の注目度): 21.061012027477076
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing LLM test-time scaling laws emphasize the emergence of self-reflective behaviors through extended reasoning length. Nevertheless, this vertical scaling strategy often encounters plateaus in exploration as the model becomes locked into specific thinking pattern. By shifting from depth to parallelism, parallel thinking mitigates the narrowing of exploration. However, the extension of this paradigm to visual domain remains an open research question. In this paper, we first examine the role of visual partitioning in parallelized reasoning and subsequently propose two distinct strategies. Based on the above, we introduce Visual Para-Thinker, representing the inaugural parallel reasoning framework for MLLMs. To maintain path independence and promote diversity in reasoning, our approach integrates Pa-Attention alongside LPRoPE. Leveraging the vLLM framework, we have developed a native multimodal implementation that facilitates high-efficiency parallel processing. Empirical results on benchmark datasets such as V*, CountBench, RefCOCO, and HallusionBench confirm that Visual Para-Thinker successfully extends the benefits of parallel reasoning to the visual domain.
- Abstract(参考訳): 既存のLLMテストタイムスケーリング法は、拡張推論長による自己反射行動の出現を強調している。
しかしながら、この垂直スケーリング戦略は、モデルが特定の思考パターンにロックされると、探索において高原に遭遇することが多い。
深度から並列性へのシフトによって、並列思考は探索の絞り込みを緩和する。
しかし、このパラダイムを視覚領域に拡張することは、まだオープンな研究課題である。
本稿では,まず並列化推論における視覚的パーティショニングの役割について検討し,その後に2つの異なる戦略を提案する。
本稿では,MLLMの初期並列推論フレームワークであるVisual Para-Thinkerを紹介する。
経路独立性を維持し,推論における多様性を促進するため,LPRoPEとPa-Attentionを統合した。
我々はvLLMフレームワークを活用し,高効率並列処理を容易にするネイティブなマルチモーダル実装を開発した。
V*、CountBench、RefCOCO、HalusionBenchといったベンチマークデータセットの実証的な結果によると、Visual Para-Thinkerは、並列推論の利点をビジュアルドメインに拡張することに成功している。
関連論文リスト
- LaSER: Internalizing Explicit Reasoning into Latent Space for Dense Retrieval [74.72139580745511]
LaSERは、レトリバーの潜在空間に明示的な推論を内部化する、新しい自己蒸留フレームワークである。
提案手法は, 明示的なCoTパイプラインの推論深度と, 標準的な高密度検索器の推論効率をうまく組み合わせる。
論文 参考訳(メタデータ) (2026-03-02T04:11:18Z) - Parallel-Probe: Towards Efficient Parallel Thinking via 2D Probing [76.48164395646019]
Parallel-Probeは、オンライン並列思考を最適化するために設計されたトレーニング不要のコントローラである。
競合精度を維持しつつ、シーケンシャルトークンを最大$textbf35.8$%、トータルトークンコストを$textbf25.8$%まで削減する。
論文 参考訳(メタデータ) (2026-02-03T18:59:41Z) - Parallel Latent Reasoning for Sequential Recommendation [23.624137982116867]
多様な推論軌道を同時に探索するための新しいフレームワークである PLR を提案する。
PLRは連続的な潜在空間における学習可能なトリガートークンを通して並列推論ストリームを構築する。
3つの実世界のデータセットの実験により、PLRは最先端のベースラインを大幅に上回ることを示した。
論文 参考訳(メタデータ) (2026-01-06T16:25:48Z) - A Survey on Parallel Reasoning [58.66122129692264]
まず、並列推論の形式的定義を示し、その区別をChain-of-Thoughtのような関連する概念と明確にする。
次に、非対話的推論、対話的推論、効率を重視した復号戦略を含む、新しい分類法に基づく高度な手法を編成し、議論する。
並列推論の中核的な課題を強調し,今後の研究の方向性を示唆する。
論文 参考訳(メタデータ) (2025-10-14T05:42:19Z) - Parallel-R1: Towards Parallel Thinking via Reinforcement Learning [65.68667585027232]
並列思考は、大規模言語モデルの推論能力を高めるための新しいアプローチである。
並列思考行動を可能にする最初の強化学習フレームワークである textbfParallel-R1 を提案する。
本フレームワークでは,並列思考のトレーニングにおいて,コールドスタート問題に明示的に対処する漸進的なカリキュラムを採用している。
論文 参考訳(メタデータ) (2025-09-09T17:59:35Z) - A Survey on Latent Reasoning [100.54120559169735]
大きな言語モデル(LLM)は印象的な推論機能を示している。
中間ステップを言語化するCoT推論は、モデルの表現帯域幅を制限する。
潜在的推論は、モデルの連続的な隠れ状態に完全にマルチステップの推論を実行することで、このボトルネックに対処する。
論文 参考訳(メタデータ) (2025-07-08T17:29:07Z) - Ground-R1: Incentivizing Grounded Visual Reasoning via Reinforcement Learning [96.01617809845396]
Ground-R1は、明示的なエビデンスや合理的アノテーションを必要とせずに、基礎的な視覚的推論を可能にする強化学習フレームワークである。
グラウンドR1は優れた性能を示し、不確実性認識、空間認識、反復的洗練などの創発的な認知行動を示す。
論文 参考訳(メタデータ) (2025-05-26T17:51:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。