論文の概要: Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment
- arxiv url: http://arxiv.org/abs/2510.11369v1
- Date: Mon, 13 Oct 2025 13:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.369826
- Title: Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment
- Title(参考訳): 表現としての推論:画像品質評価における視覚強化学習の再考
- Authors: Shijie Zhao, Xuanyu Zhang, Weiqi Li, Junlin Li, Li Zhang, Tianfan Xue, Jian Zhang,
- Abstract要約: 強化学習(RL)により訓練された推論に基づく画像品質評価(IQA)モデルは非常に一般化されている。
本稿では、RLトレーニングを通じて、冗長な視覚表現をコンパクトでクロスドメインなテキスト表現に変換するために、MLLMが推論能力を活用することを検証し、精査する。
RLで学習したこれらの一般化可能なテキスト表現と画像を直接整合させるために、コントラスト学習を利用する新しいアルゴリズムであるRALIを提案する。
- 参考スコア(独自算出の注目度): 42.78148760975009
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reasoning-based image quality assessment (IQA) models trained through reinforcement learning (RL) exhibit exceptional generalization, yet the underlying mechanisms and critical factors driving this capability remain underexplored in current research. Moreover, despite their superior performance, these models incur inference energy usage and latency orders of magnitude higher than their earlier counterparts, restricting their deployment in specific scenarios. Through extensive experiments, this paper verifies and elaborates that through RL training, MLLMs leverage their reasoning capability to convert redundant visual representations into compact, cross-domain aligned text representations. This conversion is precisely the source of the generalization exhibited by these reasoning-based IQA models. Building on this fundamental insight, we propose a novel algorithm, RALI, which employs contrastive learning to directly align images with these generalizable text representations learned by RL. This approach eliminates the reliance on reasoning processes and even obviates the need to load an LLM. For the quality scoring task, this framework achieves generalization performance comparable to reasoning-based models while requiring less than 5% of their model parameters and inference time.
- Abstract(参考訳): 推論に基づく画像品質評価(IQA)モデルは、強化学習(RL)によって訓練され、非常に一般化されているが、その基礎となるメカニズムと重要な要因は、現在も研究が過小評価されている。
さらに、優れたパフォーマンスにもかかわらず、これらのモデルは推論エネルギーの使用量と遅延順序を以前のモデルよりも桁違いに高くし、特定のシナリオでのデプロイメントを制限する。
本稿では、RLトレーニングを通じて、冗長な視覚表現をコンパクトでクロスドメインなテキスト表現に変換するために、MLLMが推論能力を活用することを検証し、精査する。
この変換は、まさにこれらの推論に基づくIQAモデルによって示される一般化の源である。
この基本的知見に基づいて,RL が学習したこれらの一般化可能なテキスト表現と画像を直接整合させるコントラスト学習を用いた新しいアルゴリズム RALI を提案する。
このアプローチは推論プロセスへの依存をなくし、LLMをロードする必要をなくす。
品質評価タスクでは、モデルパラメータと推論時間の5%未満を必要としながら、推論モデルに匹敵する一般化性能を達成する。
関連論文リスト
- Vision-EKIPL: External Knowledge-Infused Policy Learning for Visual Reasoning [23.00801828244201]
本稿では,textbfVision-EKIPLと呼ばれる新しいRLフレームワークを提案する。
RLトレーニングプロセス中に外部補助モデルによって生成された高品質なアクションを導入し、ポリシーモデルの最適化を導く。
最先端(SOTA)と比較して、Reason-RFT-CoTベンチマークで最大5%の性能改善を実現している。
論文 参考訳(メタデータ) (2025-06-07T16:37:46Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [66.61292196146016]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme [36.34443944082215]
本研究は、視覚モデル(VLM)における強化学習(RL)のための透明でゼロスクラッチなフレームワークを導入する。
複数のモデルとデータセットにまたがって検証される、最小限の機能を備えた4ステップパイプラインを提供する。
さらに、トレーニング力学と反射行動を評価するために、標準化された評価手法を提案する。
論文 参考訳(メタデータ) (2025-04-03T13:53:28Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。