論文の概要: Pair2Score: Pairwise-to-Absolute Transfer for LLM-Based Essay Scoring
- arxiv url: http://arxiv.org/abs/2605.02069v1
- Date: Sun, 03 May 2026 21:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.067677
- Title: Pair2Score: Pairwise-to-Absolute Transfer for LLM-Based Essay Scoring
- Title(参考訳): Pair2Score: LLMに基づく評価のためのPairwise-to-Absolute Transfer
- Authors: İbrahim Rıza Hallaç, Hasan Oğul,
- Abstract要約: Pair2Scoreはパラメータ効率のLLaMA適応を伴う絶対スコアにペア比較を変換する。
ルーブリック整列型自動エッセイスコーリング特性を5倍のプロトコルで評価する。
ワンエポックペアワイズステージは、拡張ペアワイズトレーニングよりも確実に転送し、転送構成は下流スコアリングの利点を判定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many scoring applications require absolute predictions, while pairwise comparisons can provide a simpler learning objective. We present Pair2Score, a two-stage learning framework that transfers pairwise comparisons into absolute scoring with parameter-efficient LLaMA adaptation. Stage 1 trains a directional Siamese ranker on pairwise comparisons derived from absolute trait labels; Stage 2 trains an absolute predictor using configurable transfer strategies (warm-start and embedding-fusion variants). We evaluate on rubric-aligned Automated Essay Scoring (AES) traits (grammar, vocabulary, syntax) under a five-fold protocol that co-rotates held-out fold and random seed. At the trait level, the best-performing transfer variant improves quadratic weighted kappa (QWK) over an absolute-only baseline for all three traits. However, not all transfer configurations help: a one-epoch pairwise stage transfers more reliably than extended pairwise training, and transfer configuration -- not just the inclusion of a pairwise stage -- determines whether downstream scoring benefits.
- Abstract(参考訳): 多くのスコアリングアプリケーションは絶対的な予測を必要とし、ペア比較はより単純な学習目標を提供する。
Pair2Scoreは2段階の学習フレームワークで、パラメータ効率のLLaMA適応による絶対スコアにペア比較を変換する。
ステージ1は、絶対的な特性ラベルから派生した一対比較で、方向性のシームズローダを訓練し、ステージ2は、設定可能な転送戦略(ウォームスタートおよび埋め込み融合の変種)を使用して、絶対的な予測器を訓練する。
留置折りとランダムシードを共回転する5倍プロトコルを用いて, ルブリック整列型自動評価(AES)特性(文法, 語彙, 構文)を評価した。
特性レベルでは、最も優れた転送変種は、3つの特性のすべてに対して絶対のみのベースラインよりも2次重み付きカッパ(QWK)を改善する。
しかし、すべての転送構成が役に立つ訳ではない: ワンエポックなペアワイズステージは、拡張されたペアワイズトレーニングよりも確実に転送し、転送構成は、ペアワイズステージだけでなく、ダウンストリームスコアリングのメリットを判断する。
関連論文リスト
- DRL: Discriminative Representation Learning with Parallel Adapters for Class Incremental Learning [63.65467569295623]
本稿では,これらの課題に対処するための差別的表現学習(DRL)フレームワークを提案する。
逐次学習を効果的かつ効率的に行うために、DRLのネットワークはPTM上に構築される。
我々のDRLは、CIL時代を通して、他の最先端の手法よりも一貫して優れています。
論文 参考訳(メタデータ) (2025-10-14T03:19:15Z) - Winning the Pruning Gamble: A Unified Approach to Joint Sample and Token Pruning for Efficient Supervised Fine-Tuning [71.30276778807068]
サンプルプルーニングとトークンプルーニングを戦略的に協調する統合フレームワークを提案する。
Q-Tuningは、トレーニングデータの12.5%しか使用せず、全データSFTベースラインに対する平均38%の改善を実現している。
論文 参考訳(メタデータ) (2025-09-28T13:27:38Z) - A Systematic Examination of Preference Learning through the Lens of Instruction-Following [83.71180850955679]
新たな合成データ生成パイプラインを用いて48,000の命令追従プロンプトを生成する。
合成プロンプトでは、リジェクションサンプリング(RS)とモンテカルロ木探索(MCTS)の2つの選好データセットキュレーション手法を用いる。
実験により、MCTSが生成した選好ペアにおける共有プレフィックスは、限界はあるが一貫した改善をもたらすことが明らかになった。
高コントラストの選好ペアは一般的に低コントラストのペアよりも優れているが、両者を組み合わせることで最高のパフォーマンスが得られることが多い。
論文 参考訳(メタデータ) (2024-12-18T15:38:39Z) - Is Less More? Exploring Token Condensation as Training-free Test-time Adaptation [43.09801987385207]
対照的に、CLIP(Contrastive Language- Image Pretraining)は、一般化可能な画像表現の学習において優れているが、特定のデータセットのゼロショット推論では不足することが多い。
テスト時間適応(TTA)は、正規化レイヤやコンテキストプロンプトなどのコンポーネントを調整することでこの問題を軽減するが、通常は大きなバッチサイズと広範な拡張を必要とする。
本稿では,TCA(Token Condensation as Adaptation)を提案する。
論文 参考訳(メタデータ) (2024-10-16T07:13:35Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Visual Query Tuning: Towards Effective Usage of Intermediate
Representations for Parameter and Memory Efficient Transfer Learning [19.254454866466187]
視覚変換器の中間機能を集約する視覚クエリチューニング(VQT)を提案する。
VQTは中間機能をそのままに保ち、それらを組み合わせることしか学ばないため、トレーニングではメモリ効率がよい。
VQTは、トランスファーラーニングに中間機能を利用する最先端のアプローチを一貫して超越している。
論文 参考訳(メタデータ) (2022-12-06T18:39:45Z) - Mutual-Information Based Few-Shot Classification [34.95314059362982]
数ショット学習のためのTIM(Transductive Infomation Maximization)を提案する。
提案手法は,与えられた数発のタスクに対して,クエリ特徴とラベル予測との相互情報を最大化する。
そこで我々は,勾配に基づく最適化よりもトランスダクティブ推論を高速化する交代方向解法を提案する。
論文 参考訳(メタデータ) (2021-06-23T09:17:23Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Pointwise Binary Classification with Pairwise Confidence Comparisons [97.79518780631457]
ペアワイズ比較(Pcomp)分類を提案し、ラベルのないデータのペアしか持たない。
我々はPcomp分類をノイズラベル学習に結びつけて、進歩的UREを開発し、一貫性の正則化を課すことにより改善する。
論文 参考訳(メタデータ) (2020-10-05T09:23:58Z) - Laplacian Regularized Few-Shot Learning [35.381119443377195]
少数ショットタスクに対するラプラシアン正規化推論を提案する。
私たちの推論はベースモデルを再トレーニングするものではなく、クエリセットのグラフクラスタリングとして見ることができます。
我々のLaplacianShotは、異なるモデル間で大きなマージンで最先端の手法を一貫して上回ります。
論文 参考訳(メタデータ) (2020-06-28T02:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。