論文の概要: Decision-Level Ordinal Modeling for Multimodal Essay Scoring with Large Language Models
- arxiv url: http://arxiv.org/abs/2603.14891v1
- Date: Mon, 16 Mar 2026 06:40:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:36.109718
- Title: Decision-Level Ordinal Modeling for Multimodal Essay Scoring with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたマルチモーダル評価のための決定レベル順序モデル
- Authors: Han Zhang, Jiamin Su, Li liu,
- Abstract要約: DLOM(Decision-Level Ordinal Modeling)は、言語モデルヘッドを再利用することで明確な順序決定を行う。
マルチモーダルエッセイスコアでは、DLOM-GFはテキストとマルチモーダルスコアログを適応的に組み合わせたゲート融合モジュールを導入している。
マルチモーダルEssayJudgeデータセットの実験では、DLOMはスコアリング特性をまたいだ世代ベースのSFTベースラインよりも改善されている。
- 参考スコア(独自算出の注目度): 8.881064693093721
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated essay scoring (AES) predicts multiple rubric-defined trait scores for each essay, where each trait follows an ordered discrete rating scale. Most LLM-based AES methods cast scoring as autoregressive token generation and obtain the final score via decoding and parsing, making the decision implicit. This formulation is particularly sensitive in multimodal AES, where the usefulness of visual inputs varies across essays and traits. To address these limitations, we propose Decision-Level Ordinal Modeling (DLOM), which makes scoring an explicit ordinal decision by reusing the language model head to extract score-wise logits on predefined score tokens, enabling direct optimization and analysis in the score space. For multimodal AES, DLOM-GF introduces a gated fusion module that adaptively combines textual and multimodal score logits. For text-only AES, DLOM-DA adds a distance-aware regularization term to better reflect ordinal distances. Experiments on the multimodal EssayJudge dataset show that DLOM improves over a generation-based SFT baseline across scoring traits, and DLOM-GF yields further gains when modality relevance is heterogeneous. On the text-only ASAP/ASAP++ benchmarks, DLOM remains effective without visual inputs, and DLOM-DA further improves performance and outperforms strong representative baselines.
- Abstract(参考訳): 自動エッセイスコア(AES)は、各エッセイに対して複数のルーリック定義された特性スコアを予測する。
LLMベースのほとんどのAESメソッドは、スコアを自己回帰トークン生成としてキャストし、デコードと解析によって最終スコアを取得し、決定を暗黙化する。
この定式化は多モードAESにおいて特に敏感であり、視覚入力の有用性はエッセイや特徴によって異なる。
これらの制約に対処するために、言語モデルヘッドを再利用し、予め定義されたスコアトークン上でスコアワイズロジットを抽出し、スコア空間の直接最適化と分析を可能にすることで、明確な順序決定を行うDLOM(Decision-Level Ordinal Modeling)を提案する。
マルチモーダルAESでは、DLOM-GFはテキストとマルチモーダルスコアのログを適応的に組み合わせたゲート融合モジュールを導入している。
テキストのみのAESでは、DLOM-DAは順序距離をよりよく反映するために、距離対応の正規化項を追加する。
マルチモーダルEssayJudgeデータセットの実験により、DLOMはスコアリング特性の世代ベースのSFTベースラインよりも改善され、DLOM-GFはモダリティの妥当性が不均一である場合にさらに向上することが示された。
テキストのみのASAP/ASAP++ベンチマークでは、DLOMは視覚的な入力なしで有効であり、DLOM-DAはパフォーマンスをさらに向上し、強力な代表ベースラインを上回っている。
関連論文リスト
- DiffuRank: Effective Document Reranking with Diffusion Language Models [71.16830004674513]
拡散言語モデル(dLLM)に基づいて構築されたフレームワークであるDiffuRankを提案する。
dLLMは、左から右への順序に制約されないより柔軟なデコーディングと生成プロセスをサポートする。
モデルサイズが類似した自己回帰LDMに匹敵する性能を示す。
論文 参考訳(メタデータ) (2026-02-13T02:18:14Z) - Investigating Thematic Patterns and User Preferences in LLM Interactions using BERTopic [4.087884819027264]
本研究では,Lumsys-chat-1mデータセットに対してBERTopicを適用した。
主な目的は、これらの会話におけるテーマパターンを明らかにし、ユーザの好みとの関係を調べることである。
トピックとモデル嗜好の関係を分析し,モデルとトピックのアライメントの傾向を明らかにした。
論文 参考訳(メタデータ) (2025-10-08T21:13:44Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - Learning Item Representations Directly from Multimodal Features for Effective Recommendation [51.49251689107541]
マルチモーダルレコメンデータシステムは、主にベイズパーソナライズされたランク付け(BPR)最適化を利用してアイテム表現を学習する。
本稿では,マルチモーダルな特徴からアイテム表現を直接学習し,推薦性能を向上する新しいモデル(LIRDRec)を提案する。
論文 参考訳(メタデータ) (2025-05-08T05:42:22Z) - Multi2: Multi-Agent Test-Time Scalable Framework for Multi-Document Processing [43.75154489681047]
MDS(Multi-Document Summarization)のためのテスト時間スケーリングを利用した新しいフレームワークを提案する。
提案手法では,様々なプロンプトを用いて複数の候補サマリーを生成し,アグリゲータと組み合わせて洗練されたサマリーを生成する。
また,本手法を効果的に評価するために,LCM-ACU(Consistency-Aware Preference)スコアとLLM-Content-Unit(LLM-ACU)スコアという2つの新しいLCMベースの指標を導入する。
論文 参考訳(メタデータ) (2025-02-27T23:34:47Z) - Align-SLM: Textless Spoken Language Models with Reinforcement Learning from AI Feedback [50.84142264245052]
テキストレス音声言語モデル(SLM)のセマンティック理解を強化するためのAlign-SLMフレームワークを導入する。
提案手法は、与えられたプロンプトから複数の音声継続を生成し、意味的指標を用いて、直接選好最適化(DPO)のための選好データを生成する。
語彙および構文モデリングのためのZeroSpeech 2021ベンチマーク、意味的コヒーレンスのためのStoryClozeデータセットの音声バージョン、GPT4-oスコアや人間評価などの音声生成指標を用いて、フレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-11-04T06:07:53Z) - Making a (Counterfactual) Difference One Rationale at a Time [5.97507595130844]
本研究では,人的支援を伴わない反現実的データ拡張が,セレクタの性能を向上させることができるかどうかを考察する。
以上の結果から,CDAは関心のシグナルをよりよく捉えた合理性を生み出すことが示唆された。
論文 参考訳(メタデータ) (2022-01-13T19:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。