論文の概要: Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization
- arxiv url: http://arxiv.org/abs/2509.21871v1
- Date: Fri, 26 Sep 2025 04:55:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.188549
- Title: Unlocking the Essence of Beauty: Advanced Aesthetic Reasoning with Relative-Absolute Policy Optimization
- Title(参考訳): 美のエッセンスを解き放つ:相対的絶対的政策最適化による高度な美的推論
- Authors: Boyang Liu, Yifan Hu, Senjie Jin, Shihan Dou, Gonglei Shi, Jie Shao, Tao Gui, Xuanjing Huang,
- Abstract要約: 強化学習(RL)を用いた包括的審美的推論フレームワークAes-R1を提案する。
Aes-R1はパイプライン、AesCoTを統合し、高品質なチェーン・オブ・プリーティングデータの構築とフィルタリングを行う。
実験により、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善することが示された。
- 参考スコア(独自算出の注目度): 63.169050703903515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) are well suited to image aesthetic assessment, as they can capture high-level aesthetic features leveraging their cross-modal understanding capacity. However, the scarcity of multimodal aesthetic reasoning data and the inherently subjective nature of aesthetic judgment make it difficult for MLLMs to generate accurate aesthetic judgments with interpretable rationales. To this end, we propose Aes-R1, a comprehensive aesthetic reasoning framework with reinforcement learning (RL). Concretely, Aes-R1 integrates a pipeline, AesCoT, to construct and filter high-quality chain-of-thought aesthetic reasoning data used for cold-start. After teaching the model to generate structured explanations prior to scoring, we then employ the Relative-Absolute Policy Optimization (RAPO), a novel RL algorithm that jointly optimizes absolute score regression and relative ranking order, improving both per-image accuracy and cross-image preference judgments. Aes-R1 enables MLLMs to generate grounded explanations alongside faithful scores, thereby enhancing aesthetic scoring and reasoning in a unified framework. Extensive experiments demonstrate that Aes-R1 improves the backbone's average PLCC/SRCC by 47.9%/34.8%, surpassing state-of-the-art baselines of similar size. More ablation studies validate Aes-R1's robust generalization under limited supervision and in out-of-distribution scenarios.
- Abstract(参考訳): マルチモーダル大言語モデル (MLLM) は画像美的評価に適しており, クロスモーダル理解能力を活用して高い審美的特徴を捉えることができる。
しかし、マルチモーダルな審美的推論データの不足と、本質的に主観的な審美的判断の性質は、MLLMが解釈可能な合理性を持つ正確な審美的判断を生成するのを困難にしている。
この目的のために,強化学習(RL)を用いた包括的審美的推論フレームワークであるAes-R1を提案する。
具体的には、Aes-R1はパイプラインであるAesCoTを統合して、コールドスタートに使用される高品質なチェーン・オブ・プリーニングデータの構築とフィルタリングを行う。
評価に先立って構造化された説明を生成するためにモデルに教えた後、絶対スコア評価と相対ランク順を共同で最適化し、画像毎の精度とクロスイメージ優先判定の両方を改善する新しいRLアルゴリズムであるRL-Absolute Policy Optimization (RAPO) を採用する。
Aes-R1は、MLLMが忠実なスコアとともに基礎的な説明を生成できるようにし、統一されたフレームワークにおける美的スコアと推論を強化する。
大規模な実験では、Aes-R1は背骨の平均PLCC/SRCCを47.9%/34.8%改善し、同じ大きさの最先端のベースラインを超えた。
Aes-R1 の頑健な一般化は限定的な監督とアウト・オブ・ディストリビューションのシナリオの下で検証される。
関連論文リスト
- The Unanticipated Asymmetry Between Perceptual Optimization and Assessment [15.11427750828098]
画像品質評価(IQA)に優れる忠実度指標は知覚的最適化に必ずしも有効ではないことを示す。
また、識別器設計は、バニラやトランスフォーマーベースの代替品よりも、より忠実な詳細な再構築を提供するパッチレベルおよび畳み込みアーキテクチャによって、最適化を形作る上で決定的な役割を担っていることも示している。
論文 参考訳(メタデータ) (2025-09-25T08:08:26Z) - Better by Comparison: Retrieval-Augmented Contrastive Reasoning for Automatic Prompt Optimization [6.3914079241545885]
提案するCRPO(Contrastive Reasoning Prompt Optimization)は,検索拡張推論プロセスとして迅速な最適化を定式化する新しいフレームワークである。
私たちのアプローチでは、ヘルプステア2データセットからトップk参照プロンプトを検索します。
CRPOは、高品位と低品位を明示的に対比することにより、特定のプロンプトが失敗する理由を推論し、より堅牢で解釈可能な最適化を実現する。
論文 参考訳(メタデータ) (2025-09-02T08:45:29Z) - STARec: An Efficient Agent Framework for Recommender Systems via Autonomous Deliberate Reasoning [54.28691219536054]
我々は、自律的な熟考的推論機能を備えたレコメンデータシステムを支援する、ゆっくり考えられた拡張エージェントフレームワークSTARecを紹介する。
我々は,先進的推論モデルと嗜好整合型報酬形成から構造化知識の蒸留を組み合わせた2段階のパラダイムであるアンカー強化訓練を開発する。
MovieLens 1MとAmazon CDsベンチマークの実験では、STARecは最先端のベースラインと比較して、大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2025-08-26T08:47:58Z) - Perceptual Decoupling for Scalable Multi-modal Reasoning via Reward-Optimized Captioning [78.17782197231325]
本稿では,抽出者のキャプション動作と推論目的を一致させる推論誘導型強化学習戦略を提案する。
マルチモーダルな数学と科学ベンチマークの実験により、提案手法は最先端の平均性能を達成することを示した。
論文 参考訳(メタデータ) (2025-06-05T02:28:07Z) - RACE-Align: Retrieval-Augmented and Chain-of-Thought Enhanced Preference Alignment for Large Language Models [11.107932406541865]
本稿では,従来の選好アライメント手法の限界に対処する新しいフレームワークであるRAS-Alignを紹介する。
RACE-Alignは、外部知識サポートと明示的なChain-of-Thought(CoT)推論を組み込んだバイナリ優先データセットを体系的に構築する。
Qwen3-1.7Bをベースモデルとして用いた伝統的な中国医学(TCM)における実験的検証は、RAS-Alignが元のベースモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-06-03T10:36:38Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - LARES: Latent Reasoning for Sequential Recommendation [96.26996622771593]
本稿では、シークエンシャルレコメンデーションのための新しいスケーラブルなLatent ReasoningフレームワークであるLARESを紹介する。
提案手法では,パラメータの複雑性を増大させることなく推理深度を柔軟に拡張できる再帰的アーキテクチャを用いている。
我々のフレームワークは既存の高度なモデルとのシームレスな互換性を示し、推奨性能をさらに向上させる。
論文 参考訳(メタデータ) (2025-05-22T16:22:54Z) - SRPO: A Cross-Domain Implementation of Large-Scale Reinforcement Learning on LLM [18.275547804539016]
Two-Staged History-Resampling Policy 最適化は AIME24 と LiveCodeBench ベンチマークにおける DeepSeek-R1-Zero-32B のパフォーマンスを上回る。
本研究では,(1)数学的推論と符号化能力の両立を図った2段階のクロスドメイン・トレーニングパラダイム,(2)非効率なサンプルに対処する手法であるヒストリ・サンプリング(HR)を紹介する。
論文 参考訳(メタデータ) (2025-04-19T13:06:03Z) - A Simple and Generalist Approach for Panoptic Segmentation [57.94892855772925]
本稿では,深部エンコーダ-浅部デコーダアーキテクチャに基づく簡易な一般化フレームワークを提案する。
これはトレーニング中の不均衡に起因することを示し、その削減のための新しい方法を提案する。
提案手法は,MS-COCOデータセット上で55.1のPQを実現する。
論文 参考訳(メタデータ) (2024-08-29T13:02:12Z) - Your Causal Self-Attentive Recommender Hosts a Lonely Neighborhood [25.74765016730563]
両方向/自動符号化(AE)と一方向/自動回帰(AR)の注意機構の比較分析を行った。
理論解析を支援するため,5つのベンチマークでAE/ARの注目度を比較する実験を行った。
私たちは、パフォーマンスの高いセルフアテンティブなレコメンデーションのために、将来の設計選択に光を当てました。
論文 参考訳(メタデータ) (2024-06-04T07:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。