論文の概要: Perceptual Flow Network for Visually Grounded Reasoning
- arxiv url: http://arxiv.org/abs/2605.02730v1
- Date: Mon, 04 May 2026 15:31:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.375907
- Title: Perceptual Flow Network for Visually Grounded Reasoning
- Title(参考訳): 視覚的接地推論のための知覚フローネットワーク
- Authors: Yangfu Li, Yuning Gong, Hongjian Zhan, Teng Li, Yuanhuiyi Lyu, Tianyi Chen, Qi Liu, Ziyuan Huang, Zhihang Zhong, Dandan Zheng, Yue Lu,
- Abstract要約: PFlowNetは、自己条件生成プロセスを確立するために、推論から知覚を分離する。
多次元報酬と、変分強化学習によるヴィジナル幾何形状の整形を統合する。
証明可能なパフォーマンス保証と競争実証結果を提供する。
- 参考スコア(独自算出の注目度): 61.51220916184079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the success of Large-Vision Language Models (LVLMs), general optimization objectives (e.g., standard MLE) fail to constrain visual trajectories, leading to language bias and hallucination. To mitigate this, current methods introduce geometric priors from visual experts as additional supervision. However, we observe that such supervision is typically suboptimal: it is biased toward geometric precision and offers limited reasoning utility. To bridge this gap, we propose Perceptual Flow Network (PFlowNet), which eschews rigid alignment with the expert priors and achieves interpretable yet more effective visual reasoning. Specifically, PFlowNet decouples perception from reasoning to establish a self-conditioned generation process. Based on this, it integrates multi-dimensional rewards with vicinal geometric shaping via variational reinforcement learning, thereby facilitating reasoning-oriented perceptual behaviors while preserving visual reliability. PFlowNet delivers a provable performance guarantee and competitive empirical results, particularly setting new SOTA records on V* Bench (90.6%) and MME-RealWorld-lite (67.0%).
- Abstract(参考訳): LVLM(Large-Vision Language Models)の成功にもかかわらず、一般的な最適化目標(例:標準MLE)は視覚軌道の制約に失敗し、言語バイアスと幻覚をもたらす。
これを軽減するため、現在の手法では、視覚専門家による幾何学的先行を追加の監督として導入している。
しかし、このような監督は概して準最適であり、幾何学的精度に偏りがあり、限定的な推論ユーティリティを提供する。
このギャップを埋めるために、専門家との厳密な整合性を実現し、より効果的な視覚的推論を実現するPerceptual Flow Network (PFlowNet)を提案する。
具体的には、PFlowNetは推論から認識を分離し、自己条件生成プロセスを確立する。
これに基づいて、多次元報酬と変分強化学習によるヴィジナル幾何形状の整形を統合し、視覚的信頼性を維持しながら推論指向の知覚行動を容易にする。
PFlowNetは、特にV* Bench (90.6%) と MME-RealWorld-lite (67.0%) に新しいSOTAレコードを設定することで、証明可能なパフォーマンス保証と競争実証結果を提供する。
関連論文リスト
- Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - Diagnosing Generalization Failures from Representational Geometry Markers [8.403001493770427]
医用バイオマーカーにインスパイアされた一般化失敗について検討する。
我々は,ネットワークマーカーを設計,テストし,構造や機能リンクの探索,予後指標の同定,実環境における予測の検証を行う。
この研究は、表現幾何学が隠れた脆弱性を隠蔽し、モデル選択とAI解釈可能性に関するより堅牢なガイダンスを提供することを示した。
論文 参考訳(メタデータ) (2026-03-02T13:59:19Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - Optimal Depth of Neural Networks [2.1756081703276]
本稿では,ニューラルネットワークの最適深さの決定に対処する公式な理論的枠組みを提案する。
我々は、シーケンシャルな決定プロセスとして、隠蔽表現の層間進化をモデル化する。
本稿では,ネットワークが効率よく早期終了可能な表現を学習することを奨励する,新規で実用的な正規化用語である$mathcalL_rm depth$を提案する。
論文 参考訳(メタデータ) (2025-06-20T09:26:01Z) - A Plug-and-Play Learning-based IMU Bias Factor for Robust Visual-Inertial Odometry [27.62788405443008]
Inertial Prior Network (IPNet) を利用した新しいプラグアンドプレイモジュールを提案する。
IPNetは、特定のプラットフォームの動作特性を暗黙的にキャプチャすることで、IMUバイアスを推論する。
本研究では、まず、スライドウインドウアプローチを用いて生のIMUデータのみを用いてバイアスを直接推測する。
論文 参考訳(メタデータ) (2025-03-16T14:45:19Z) - Learning GFlowNets from partial episodes for improved convergence and
stability [56.99229746004125]
生成フローネットワーク(GFlowNets)は、非正規化対象密度の下で離散オブジェクトのシーケンシャルサンプリングを訓練するアルゴリズムである。
GFlowNetsの既存のトレーニング目的は、状態または遷移に局所的であるか、あるいはサンプリング軌道全体にわたって報酬信号を伝達する。
強化学習におけるTD($lambda$)アルゴリズムにインスパイアされたサブトラジェクティブバランス(subtrajectory balance, SubTB($lambda$)を導入する。
論文 参考訳(メタデータ) (2022-09-26T15:44:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。