論文の概要: Trait-Aware Policy Optimization for Autoregressive Multi-Trait Essay Scoring
- arxiv url: http://arxiv.org/abs/2605.25731v2
- Date: Tue, 26 May 2026 10:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.166006
- Title: Trait-Aware Policy Optimization for Autoregressive Multi-Trait Essay Scoring
- Title(参考訳): 自己回帰型マルチトレート・エッセイ・スコーリングのためのトレート・アウェア・ポリシー最適化
- Authors: Zhengyang Wang, Sanwoo Lee, Jiaxin Wang, Chenxi Miao, Weikang Li, Yunfang Wu,
- Abstract要約: Trait-Aware Policy Optimization (TAPO)は、自動回帰型マルチトレーディングスコアリングに適したポストトレーニングフレームワークである。
提案手法は,グローバルスコアリングの整合性,特性レベルの精度,フォーマットの妥当性,トランジット間の依存性の保存を組み合わせ,サンプルと特性の両面から報酬を分解する。
- 参考スコア(独自算出の注目度): 27.596544379317436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-trait essay scoring aims to provide fine-grained evaluation of writing quality across multiple dimensions. However, how to effectively post-train autoregressive scoring models remains underexplored. In this paper, we propose Trait-Aware Policy Optimization (TAPO), a post-training framework tailored to autoregressive multi-trait scoring. Our method decomposes rewards along both the sample and trait dimensions, combining global scoring consistency, trait-level accuracy, format validity, and inter-trait dependency preservation. In addition, we use enhanced prompts throughout training by incorporating original prompt texts and trait descriptions, providing richer semantic information for trait-specific score generation. Experiments across multiple backbone models show that our method consistently improves multi-trait scoring performance over supervised fine-tuning and scalar-reward optimization baselines, demonstrating the effectiveness and transferability of trait-aware post-training for essay scoring.
- Abstract(参考訳): マルチトレートエッセイスコアリングは、複数の次元にわたる書き込み品質のきめ細かい評価を提供することを目的としている。
しかし、列車後自己回帰スコアリングモデルを効果的に行う方法はまだ未定である。
本稿では,自己回帰型マルチトレイスコアリングに適したポストトレーニングフレームワークであるTrait-Aware Policy Optimization (TAPO)を提案する。
提案手法は,グローバルスコアリングの整合性,特性レベルの精度,フォーマットの妥当性,トランジット間の依存性の保存を組み合わせ,サンプルと特性の両面から報酬を分解する。
さらに、原文のプロンプトテキストと特徴記述を組み込むことで、トレーニング全体を通して強化されたプロンプトを使用し、特徴特化スコア生成のためのよりリッチな意味情報を提供する。
複数のバックボーンモデルを用いた実験により,教師付き微調整およびスカラー・リワード最適化ベースラインよりも連続的にマルチトレーススコアリング性能が向上し,エッセイ評価のための特性認識後トレーニングの有効性と伝達性を示す。
関連論文リスト
- Threshold-Guided Optimization for Visual Generative Models [16.556017381410943]
視覚生成モデルと人間のフィードバックを整合させるためのしきい値誘導フレームワークを提案する。
提案手法は,従来手法よりも常に好みのアライメントを改善する。
これらの結果は、我々の閾値誘導フレームワークを、ペア比較なしで視覚的生成モデルを整列する単純な代替手段として位置づけている。
論文 参考訳(メタデータ) (2026-05-06T08:59:16Z) - Reward Score Matching: Unifying Reward-based Fine-tuning for Flow and Diffusion Models [54.597200388738656]
Reward-based fine-tuningは、事前訓練された拡散またはフローベース生成モデルを、より高い逆サンプルに向けて操ることを目的としている。
報酬スコアマッチング (RSM) と呼ばれる共通フレームワークで記述できることが示される。
論文 参考訳(メタデータ) (2026-04-19T12:47:52Z) - Probing Preference Representations: A Multi-Dimensional Evaluation and Analysis Method for Reward Models [63.00458229517523]
本研究は、嗜好表現を探索することで、報酬モデルの評価課題に対処する。
多次元リワードモデルベンチマーク (MRMBench) を構築する。
本稿では,報酬予測時に使用する次元を同定し,その解釈可能性を高める解析手法,推論時探索を提案する。
論文 参考訳(メタデータ) (2025-11-16T05:29:29Z) - Multi-Metric Preference Alignment for Generative Speech Restoration [15.696247605348383]
生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2025-08-24T07:05:10Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Learning Dynamic Representations via An Optimally-Weighted Maximum Mean Discrepancy Optimization Framework for Continual Learning [16.10753846850319]
継続的な学習は、モデルを永続的に取得し、保持することを可能にする。
悲惨な忘れ物は モデルパフォーマンスを著しく損なう
本稿では,表現変更に対する罰則を課す,OPMMD(Optimally-Weighted Mean Discrepancy)と呼ばれる新しいフレームワークを紹介する。
論文 参考訳(メタデータ) (2025-01-21T13:33:45Z) - Hateful Meme Detection through Context-Sensitive Prompting and Fine-Grained Labeling [9.166963162285064]
複雑なタスクにおけるモデル最適化のためのエンドツーエンドの概念フレームワークを提案する。
実験は、この伝統的な新しいフレームワークの有効性をサポートし、高い精度とAUROCを達成する。
論文 参考訳(メタデータ) (2024-11-13T08:05:41Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Text Counterfactuals via Latent Optimization and Shapley-Guided Search [15.919650185010491]
本研究は,分類モデルにおける対実テキスト生成の問題について考察する。
我々は、モデルの予測を変えるために、テキストを最小限に変更することを目指している。
ホワイトボックスアプローチは、視覚における同様の問題にうまく適用されている。
論文 参考訳(メタデータ) (2021-10-22T05:04:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。