論文の概要: VersusQ: Pairwise Margin Reasoning for Generalizable Video Quality Assessment
- arxiv url: http://arxiv.org/abs/2605.21130v1
- Date: Wed, 20 May 2026 13:03:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.682947
- Title: VersusQ: Pairwise Margin Reasoning for Generalizable Video Quality Assessment
- Title(参考訳): VersusQ: 一般的なビデオ品質評価のためのペアワイズマージン推論
- Authors: Shibei Meng, Binxin Yang, Yuan Liu, Jiexuan Zhang, Zhengyao Lv, Hubery Yin, Qiang Xu,
- Abstract要約: textbfVersusQは、直接比較によって完全に駆動されるペアワイズ・マージン推論フレームワークである。
VersusQは、不均一な評価シナリオ下で、最先端のパフォーマンス、強力なクロスドメインの一般化、信頼性の高いきめ細かいランキングを実現する。
- 参考スコア(独自算出の注目度): 13.042805531605893
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Multimodal Models (LMMs) have shown promise for video quality assessment, but most methods still predict an absolute score for each video. Such pointwise supervision often mixes perceptual quality with dataset-specific calibration, including annotation protocols, rating habits, and score distributions. As a result, the learned scoring rule may work well within a benchmark but transfer poorly across unseen domains. We argue that relative comparisons alleviate the absolute-scale calibration bias by focusing purely on perceptual differences rather than dataset-specific rating habits. Consequently, we propose \textbf{VersusQ}, a pairwise margin reasoning framework driven entirely by direct comparisons. Specifically, VersusQ performs LMM-based comparison between two videos, reasons about their visual and temporal quality differences, and predicts a signed continuous margin that captures both the preferred choice and the degree of difference. Furthermore, to align interpretable comparison rationales with fine-grained numerical differences, we introduce Margin-Coupled GRPO, which jointly optimizes rollout-based relational reasoning and continuous margin regression. Extensive experiments on multiple public VQA benchmarks demonstrate that VersusQ achieves state-of-the-art performance, strong cross-domain generalization, and reliable fine-grained ranking under heterogeneous evaluation scenarios.
- Abstract(参考訳): 大規模マルチモーダルモデル(LMM)はビデオの品質評価を約束しているが、ほとんどの手法はビデオ毎に絶対スコアを予測している。
このような点的監督は、しばしば知覚品質と、アノテーションプロトコル、評価習慣、スコア分布を含むデータセット固有の校正とを混合する。
その結果、学習したスコアリングルールはベンチマーク内でうまく機能するが、目に見えないドメイン間での転送は不十分である。
比較によって、データセット固有の評価習慣よりも知覚的差異にのみ焦点をあてることで、絶対スケールのキャリブレーションバイアスが軽減されることを論じる。
その結果、直接比較によって完全に駆動されるペアワイズ・マージン推論フレームワークである \textbf{VersusQ} を提案する。
具体的には、VersusQは2つのビデオ間のLMMベースの比較を行い、その視覚的および時間的品質差の理由を予測し、好む選択と相違度の両方をキャプチャする符号付き連続マージンを予測する。
さらに、解釈可能な比較論理を微粒な数値差に合わせるために、ロールアウトに基づく関係推論と連続マージン回帰を共同で最適化するMargin-Coupled GRPOを導入する。
複数の公開VQAベンチマークに対する大規模な実験は、VersusQが最先端の性能、強いクロスドメインの一般化、および不均一な評価シナリオ下での信頼性の高い微粒度ランキングを達成することを示した。
関連論文リスト
- CriterAlign: Criterion-Centric Rationale Alignment for Code Preference Judging [95.02210956333374]
本稿では,一対の選好評価にルーブリックに基づく判断を適応させる基準中心のフレームワークを提案する。
BigCodeRewardでは、CriterAlignはQwen2.5-VL-32Bモノリシック判事を60.4%から66.3%に改善した。
論文 参考訳(メタデータ) (2026-05-19T10:59:19Z) - GRCF: Two-Stage Groupwise Ranking and Calibration Framework for Multimodal Sentiment Analysis [20.77940776708036]
ペアワイズな順序学習フレームワークは、比較から学ぶことで相対的な順序を捉える。
彼らは全ての比較に均一な重要性を割り当て、ハード・ツー・ランクのサンプルに適応的に焦点をあてることに失敗した。
本稿では,グループ相対的政策最適化の理念を取り入れた二段階群ランク付け・フレームワークを提案する。
GRCFは、コア回帰ベンチマークで最先端のパフォーマンスを達成すると同時に、分類タスクにおいて強力な一般化性を示す。
論文 参考訳(メタデータ) (2026-01-14T16:26:44Z) - PairBench: Are Vision-Language Models Reliable at Comparing What They See? [16.49586486795478]
タスクに応じて大規模視覚言語モデル(VLM)を自動評価するためのフレームワークであるPairBenchを提案する。
提案手法では,人間アノテーションとの整合性,ペアオーダ間の整合性,分散のスムーズさ,プロンプトによる可制御性という,信頼性の高い比較のための4つの重要な指標を導入している。
私たちの分析では、モデルがすべての指標を一貫して上回り、それぞれが異なる強みと弱みを示すことは明らかです。
論文 参考訳(メタデータ) (2025-02-21T04:53:11Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare [99.57567498494448]
我々はLMMに基づくノン参照IQAモデルであるCompare2Scoreを紹介する。
トレーニング中、同じIQAデータセットの画像を比較することで、スケールアップ比較命令を生成する。
9つのIQAデータセットの実験により、Compare2Scoreは、トレーニング中にテキスト定義の比較レベルを効果的にブリッジすることを確認した。
論文 参考訳(メタデータ) (2024-05-29T17:26:09Z) - Statistical Comparisons of Classifiers by Generalized Stochastic
Dominance [0.0]
いくつかの基準に関して、分類器を複数のデータセットで比較する方法については、まだ合意が得られていない。
本稿では, 意思決定理論の最近の展開を取り入れた, 鮮明な議論に新たな視点を加える。
我々のフレームワークは、支配という一般化された概念によって分類器をランク付けし、それは煩雑なものを強力に回避し、しばしば自己矛盾的であり、集約に依存していることを示している。
論文 参考訳(メタデータ) (2022-09-05T09:28:15Z) - Group-aware Contrastive Regression for Action Quality Assessment [85.43203180953076]
ビデオ間の関係は、より正確な行動品質評価のための重要な手がかりとなることを示す。
提案手法は従来の手法よりも大きなマージンを達成し,3つのベンチマークで新たな最先端の手法を確立する。
論文 参考訳(メタデータ) (2021-08-17T17:59:39Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。