Fugu-MT 論文翻訳(概要): PyVision-RL: Forging Open Agentic Vision Models via RL

論文の概要: PyVision-RL: Forging Open Agentic Vision Models via RL

arxiv url: http://arxiv.org/abs/2602.20739v1
Date: Tue, 24 Feb 2026 10:08:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-25 17:34:53.709029
Title: PyVision-RL: Forging Open Agentic Vision Models via RL
Title（参考訳）: PyVision-RL:RLによるオープンエージェントビジョンモデルの作成
Authors: Shitian Zhao, Shaoheng Lin, Ming Li, Haoquan Zhang, Wenshuo Peng, Kaipeng Zhang, Chen Wei,
Abstract要約: PyVision-RLは、オープンウェイトマルチモーダルモデルの強化学習フレームワークである。画像理解のためのPyVision-ImageとPyVision-Videoを開発した。
参考スコア（独自算出の注目度）: 30.21132485615367
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement learning for agentic multimodal models often suffers from interaction collapse, where models learn to reduce tool usage and multi-turn reasoning, limiting the benefits of agentic behavior. We introduce PyVision-RL, a reinforcement learning framework for open-weight multimodal models that stabilizes training and sustains interaction. Our approach combines an oversampling-filtering-ranking rollout strategy with an accumulative tool reward to prevent collapse and encourage multi-turn tool use. Using a unified training pipeline, we develop PyVision-Image and PyVision-Video for image and video understanding. For video reasoning, PyVision-Video employs on-demand context construction, selectively sampling task-relevant frames during reasoning to significantly reduce visual token usage. Experiments show strong performance and improved efficiency, demonstrating that sustained interaction and on-demand visual processing are critical for scalable multimodal agents.
Abstract（参考訳）: エージェント的マルチモーダルモデルの強化学習は、しばしば相互作用の崩壊に悩まされ、モデルがツールの使用を減らし、マルチターン推論を学習し、エージェント的行動の利点を制限する。オープンウェイトなマルチモーダルモデルのための強化学習フレームワークであるPyVision-RLを導入する。提案手法では,オーバーサンプリングレベルのロールアウト戦略と累積ツール報酬を組み合わせることで,崩壊を防止し,マルチターンツールの使用を促進する。 PyVision-ImageとPyVision-Videoを開発した。ビデオ推論では、PyVision-Videoはオンデマンドのコンテキスト構成を採用し、推論中にタスク関連フレームを選択的にサンプリングすることで、視覚トークンの使用を著しく削減する。実験は、高いパフォーマンスと効率の向上を示し、スケーラブルなマルチモーダルエージェントには、持続的なインタラクションとオンデマンドのビジュアル処理が不可欠であることを示す。

関連論文リスト

VideoZoomer: Reinforcement-Learned Temporal Focusing for Long Video Reasoning [49.35834435935727]
VideoZoomerは、MLLMが推論中に視覚的焦点を制御することができる新しいエージェントフレームワークである。私たちの7Bモデルは、多種多様な複雑な推論パターンを提供し、幅広いビデオ理解と推論のベンチマークに強いパフォーマンスをもたらします。これらの創発的な能力は、既存のオープンソースモデルを一貫して上回り、挑戦的なタスクでプロプライエタリなシステムをライバルにさえできる。
論文参考訳（メタデータ） (2025-12-26T11:43:21Z)
Interleaved Latent Visual Reasoning with Selective Perceptual Modeling [42.93438443502933]
インターリーブ推論パラダイムは視覚フィードバックでマルチモーダル大言語モデル(MLLM)を強化するが、計算コストの禁止によって妨げられる。有望な代替手段である、潜伏した視覚的推論は、このボトルネックを回避しますが、現在、重要なトレードオフを強制しています。 IVR(Interleaved Latent Visual Reasoning)は、動的状態の進化を正確に知覚モデリングと統合するフレームワークである。
論文参考訳（メタデータ） (2025-12-05T12:09:39Z)
Training Multi-Image Vision Agents via End2End Reinforcement Learning [51.81337984526068]
我々は、エンドツーエンドの強化学習によって訓練されたオープンソースの視覚エージェントであるIMAgentを提案する。マルチエージェントシステムを利用することで、困難かつ視覚的にリッチなマルチイメージQAペアを生成する。我々は、視覚的反射と確認のための2つの特別なツールを開発し、モデルが積極的に画像コンテンツに注意を向けることを可能にする。
論文参考訳（メタデータ） (2025-12-05T10:02:38Z)
DeepEyesV2: Toward Agentic Multimodal Model [3.775371242454792]
エージェントマルチモーダルモデルは、テキストやイメージを理解するだけでなく、コード実行環境やWeb検索といった外部ツールを積極的に起動し、これらの操作を推論に統合する必要がある。本稿では,DeepEyesV2を導入し,データ構築,トレーニング方法,モデル評価の観点からエージェント型マルチモーダルモデルの構築方法について検討する。我々は、RealX-Benchや他の代表的なベンチマーク上でDeepEyesV2を評価し、実世界の理解、数学的推論、探索集約的なタスクにおけるその効果を実証した。
論文参考訳（メタデータ） (2025-11-07T14:31:20Z)
FrameMind: Frame-Interleaved Video Reasoning via Reinforcement Learning [65.42201665046505]
現在のビデオ理解モデルは、各質問の特定の推論条件にかかわらず、固定されたフレームサンプリング戦略に依存し、所定の視覚入力を処理する。この静的アプローチは、視覚的エビデンスを適応的に収集する能力を制限し、広範囲の時間的カバレッジやきめ細かい空間的詳細を必要とするタスクにおいて、最適以下のパフォーマンスをもたらす。 Frame-Interleaved Chain-of-Thought (FiCOT)を通して、モデルが推論中に視覚情報を動的に要求することを可能にする強化学習で訓練されたエンドツーエンドフレームワークであるFrameMindを紹介する。従来のアプローチとは異なり、FrameMindは複数のターンで動作し、モデルがテキスト推論とアクティブな視覚知覚を交互に切り替え、ツールを使って抽出する。
論文参考訳（メタデータ） (2025-09-28T17:59:43Z)
Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文参考訳（メタデータ） (2025-09-01T17:57:49Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
ViR: Towards Efficient Vision Retention Backbones [97.93707844681893]
視覚保持ネットワーク(ViR)と呼ばれる新しいコンピュータビジョンモデルを提案する。 ViRは並列および繰り返しの定式化を持ち、高速推論と並列トレーニングと競合性能の最適なバランスをとる。我々は,様々なデータセットサイズと様々な画像解像度を用いた広範囲な実験により,ViRの有効性を検証した。
論文参考訳（メタデータ） (2023-10-30T16:55:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。