Fugu-MT 論文翻訳(概要): Injecting Distributional Awareness into MLLMs via Reinforcement Learning for Deep Imbalanced Regression

論文の概要: Injecting Distributional Awareness into MLLMs via Reinforcement Learning for Deep Imbalanced Regression

arxiv url: http://arxiv.org/abs/2605.01402v1
Date: Sat, 02 May 2026 11:49:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-05 20:33:49.753922
Title: Injecting Distributional Awareness into MLLMs via Reinforcement Learning for Deep Imbalanced Regression
Title（参考訳）: 深部不均衡回帰のための強化学習によるMLLMへの分布認識の注入
Authors: Yao Du, Shanshan Li, Xiaomeng Li,
Abstract要約: マルチモーダル大言語モデル (MLLM) は, 長期的目標分布下での数値回帰に苦慮する。グループ相対政策最適化に基づく分散型強化学習フレームワークを提案する。 SFTと既存のMLLM回帰法よりも一貫した改善が見られた。
参考スコア（独自算出の注目度）: 15.47617293460676
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) struggle with numerical regression under long-tailed target distributions. Token-level supervised fine-tuning (SFT) and point-wise regression rewards bias learning toward high-density regions, leading to regression-to-the-mean behavior and poor tail performance. We identify the lack of cross-sample relational supervision as a key limitation of existing MLLM training paradigms. To address it, we propose a distribution-aware reinforcement learning framework based on Group Relative Policy Optimization, which introduces batch-level comparison-based supervision via the Concordance Correlation Coefficient-based reward to align predicted and ground-truth distributions in terms of correlation, scale, and mean. The framework is plug-and-play, requiring no architectural modification. Experiments on a unified suite of long-tailed regression benchmarks show consistent improvements over SFT and existing MLLM regression methods, with particularly strong gains in medium- and few-shot regimes.
Abstract（参考訳）: マルチモーダル大言語モデル (MLLM) は, 長期的目標分布下での数値回帰に苦慮する。 Token-level supervised fine-tuning (SFT) and point-wise regression rewards bias learning to high-density region, led to regression-to-the-mean behavior and poor tail performance。我々は,既存のMLLMトレーニングパラダイムの重要な制限として,クロスサンプルリレーショナル監視の欠如を指摘した。これを解決するために,グループ相対政策最適化に基づく分散型強化学習フレームワークを提案する。このフレームワークは,相関相関係数に基づく報酬を用いてバッチレベルの比較に基づく監視を導入し,相関性,スケール,平均の点から予測的および基幹的分布を整合させる。フレームワークはプラグアンドプレイで、アーキテクチャの変更は必要ありません。 SFTと既存のMLLM回帰法よりも一貫した改善が見られ、特に中級および少級のレギュレーションでは顕著に向上した。

関連論文リスト

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
FIRE: Multi-fidelity Regression with Distribution-conditioned In-context Learning using Tabular Foundation Models [3.8824066002669855]
MF(Multi-fidelity)レグレッションは、極端なデータ不均衡のレギュレーションでしばしば機能する。トレーニングフリーなMFフレームワークであるFIREを紹介する。 Fireは、最先端のGPベースまたはディープラーニングのMF回帰メソッドの7つよりもパフォーマンスタイムのトレードオフが強い。
論文参考訳（メタデータ） (2026-01-29T22:29:58Z)
MRO: Enhancing Reasoning in Diffusion Language Models via Multi-Reward Optimization [66.82303841930752]
拡散言語モデル (DLMs) は従来の自己回帰型大規模言語モデル (LLMs) に代わる有望な選択肢を提供する。 DLMは、特にデノナイジングステップの数が減少するにつれて、LLMよりも遅れている。本稿では,マルチリワード最適化 (MRO) 手法を提案する。
論文参考訳（メタデータ） (2025-10-24T13:57:59Z)
Reinforce-Ada: An Adaptive Sampling Framework for Reinforce-Style LLM Training [47.26632817047513]
大規模言語モデル(LLM)に推論タスクに適用された強化学習は、不安定な勾配推定によってボトルネックとなることが多い。 LLMのオンラインRLポストトレーニングのための適応型サンプリングフレームワークであるReinforce-Adaを提案する。従来の2段階配置法とは異なり、Reinforce-Adaはオンライン連続除去プロセスにおける推定とサンプリングをインターリーブする。
論文参考訳（メタデータ） (2025-10-06T16:34:09Z)
WSM: Decay-Free Learning Rate Schedule via Checkpoint Merging for LLM Pre-training [64.0932926819307]
本稿では,学習速度減衰とモデルマージの正式な関係を確立するフレームワークであるWarmup-Stable and Merge(WSM)を紹介する。 WSMは様々な崩壊戦略をエミュレートするための統一された理論基盤を提供する。私たちのフレームワークは、複数のベンチマークで広く採用されているWarmup-Stable-Decay(WSD)アプローチよりも一貫して優れています。
論文参考訳（メタデータ） (2025-07-23T16:02:06Z)
Regression-aware Inference with LLMs [52.764328080398805]
提案手法は,一般的な回帰と評価指標に準最適であることを示す。本稿では,ベイズ最適解を推定し,サンプル応答からクローズド形式の評価指標を推定する代替推論手法を提案する。
論文参考訳（メタデータ） (2024-03-07T03:24:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。