論文の概要: Preferences Order, Ratings Anchor: From Fused Expert Aesthetic Ground Truth to Self-Distillation
- arxiv url: http://arxiv.org/abs/2605.19776v2
- Date: Wed, 20 May 2026 07:14:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.409969
- Title: Preferences Order, Ratings Anchor: From Fused Expert Aesthetic Ground Truth to Self-Distillation
- Title(参考訳): 優先順、格付けアンカー:専門家の美的根拠から自己蒸留へ
- Authors: Yuanpei Zhao, Jie Lin, Chao Zhang, Yilin Wang, Mao Li, Chenhui Li, Jie Hou, Tangjie Lv,
- Abstract要約: PPaintは、ドメインの専門家15名、カテゴリ毎に5名、中国絵画150点を注釈付けした、マッチングされたデュアルプロトコールベンチマークである。
一致した評価とともに、局所的に密集した選好設計により、45,900人の専門家の判断を収集する。
2つの独立した選好スコア法で両信号の融合は、融合した専門家の基礎的真実をもたらす。
- 参考スコア(独自算出の注目度): 24.67838359287715
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pairwise preferences and pointwise ratings are the two dominant annotation protocols in image aesthetic assessment (IAA), yet existing benchmarks adopt only one, leaving their complementarity unmeasured under controlled conditions. We introduce PPaint, a matched dual-protocol benchmark in which 15 domain experts, 5 per category, annotate 150 Chinese paintings under both protocols across five aesthetic dimensions, collecting 45,900 pairwise expert judgments through a locally dense preference design alongside the matched ratings. The matched design reveals complementary strengths: preferences yield more consistent ordinal rankings, while ratings anchor the absolute score scale. Fusing both signals via two independent preference-to-score methods yields a fused expert ground truth on which the two constructions converge to nearly identical scores. The same preference-to-score principle extends to label-free VLM training. PSDistill converts VLM pairwise judgments into calibrated pseudo-scores via an Elo reference pool, and trains the same VLM with confidence-weighted ranking optimization to produce a single-pass aesthetic scorer. Trained on a single painting category, the distilled Qwen3-VL-8B improves mean SRCC from 0.504 to 0.709 across all three categories, outperforming all open-source baselines including the dedicated aesthetic model ArtiMuse and matching closed-source Gemini-3.1-Pro within 0.04 SRCC at single-pass inference cost, with cross-domain transfer further validated on APDDv2. We will release the full PPaint dataset and training code.
- Abstract(参考訳): Pairwise preferencesとpointwise ratingsは、画像美的評価(IAA)における2つの主要なアノテーションプロトコルであるが、既存のベンチマークでは1つしか採用されておらず、その相補性は制御された条件下で測定されていない。
PPaintは、ドメインの専門家15名、カテゴリ5名、それぞれ5つの美的次元にまたがって150点の漢画を注釈し、マッチングされた評価とともに、局所的に密集した嗜好設計により45,900点のペアワイズの専門家判断を収集する、マッチングされたデュアルプロトコールベンチマークである。
選好はより一貫性のある順序付けを導き、評価は絶対スコア尺度を固定する。
2つの独立した選好スコア法で両方の信号を融合させることで、2つの構成がほぼ同じスコアに収束する、融合した専門家の基礎的真実が得られる。
同じ好みとスコアの原則は、ラベルなしのVLMトレーニングにまで拡張される。
PSDistillは、VLMのペアワイズ判定をElo参照プールを介して校正された擬似スコアに変換し、信頼性の高いランキング最適化で同じVLMを訓練し、シングルパスの美的スコアラを生成する。
蒸留されたQwen3-VL-8Bは、3つのカテゴリすべてで平均SRCCを0.504から0.709に改善し、専用の美学モデルArtiMuseとマッチングされたクローズドソースGemini-3.1-Proを含む全てのオープンソースベースラインをシングルパス推論コストで0.04 SRCCで上回り、クロスドメイン転送はAPDDv2でさらに検証された。
完全なPPaintデータセットとトレーニングコードをリリースします。
関連論文リスト
- CriterAlign: Criterion-Centric Rationale Alignment for Code Preference Judging [95.02210956333374]
本稿では,一対の選好評価にルーブリックに基づく判断を適応させる基準中心のフレームワークを提案する。
BigCodeRewardでは、CriterAlignはQwen2.5-VL-32Bモノリシック判事を60.4%から66.3%に改善した。
論文 参考訳(メタデータ) (2026-05-19T10:59:19Z) - Visual Aesthetic Benchmark: Can Frontier Models Judge Beauty? [59.923111838399144]
本稿では,視覚的審美性ベンチマーク (VAB) を提案する。
VABには400のタスクと1,195のイメージが芸術、写真、イラストに含まれており、ラベルはタスクごとに10人の独立した専門家審査員のコンセンサスから導かれる。
最強のシステムは、人間の専門家が達成した68.9%よりもはるかに低い26.5%のタスクで、候補順の3つのランダムな順で、最良の画像と最悪の画像の両方を正しく識別する。
論文 参考訳(メタデータ) (2026-05-12T19:33:28Z) - Open-Set Vein Biometric Recognition with Deep Metric Learning [0.0]
我々は厳密なオープンセット制約の下でDeep Metric Learning(DML)の計算境界を厳格に評価する。
提案手法は,非ネイティブなL2正規化埋め込みを学習し,類似性しきい値を用いたプロトタイプベースマッチングを採用する。
大規模MMCBNU 6000ベンチマークでは、我々の最良のモデル(ResNet50-CBAM)がOSCR 0.9945、AUROC 0.9974、EER 1.57%を達成し、高い識別精度 (99.6% Rank-1) を維持しながら、未知の被験者を頑健に拒否する。
論文 参考訳(メタデータ) (2026-04-16T11:03:11Z) - Pseudo Label NCF for Sparse OHC Recommendation: Dual Representation Learning and the Separability Accuracy Trade off [3.558452956820138]
調査駆動環境における極端相互作用空間下でのレコメンデーションについて検討した。
我々は,行列因子化,多層パーセプトロン,NeuMFなどの協調フィルタリングアーキテクチャを拡張し,サーベイグループ特徴アライメントから擬似ラベルを抽出する。
結果として得られる Pseudo Label NCF は双対埋め込み空間を学習する: ランク付けのための主埋め込みとセマンティックアライメントのための擬似ラベル埋め込みである。
論文 参考訳(メタデータ) (2026-03-25T19:21:28Z) - Beyond Final Answers: CRYSTAL Benchmark for Transparent Multimodal Reasoning Evaluation [3.23600523782706]
CRYSTAL (Clear Reasoning via Yielded Steps, Traceability, and Logic)は6,372インスタンスの診断ベンチマークである。
本稿では,意味的類似性マッチングによるステップレベルの精度とリコールをスコアするMatch F1と,乱れた推論連鎖をペナルティ化するOrdered Match F1の2つの相補的指標を提案する。
CPR-CurriculumはGRPOによるMatch F1の32%の改善を実現している。
論文 参考訳(メタデータ) (2026-03-13T15:48:15Z) - Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization [63.169050703903515]
強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
論文 参考訳(メタデータ) (2025-09-26T04:55:00Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。