論文の概要: Modeling Beyond MOS: Quality Assessment Models Must Integrate Context, Reasoning, and Multimodality
- arxiv url: http://arxiv.org/abs/2505.19696v1
- Date: Mon, 26 May 2025 08:52:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.296638
- Title: Modeling Beyond MOS: Quality Assessment Models Must Integrate Context, Reasoning, and Multimodality
- Title(参考訳): MOSを超えたモデリング: 品質評価モデルはコンテキスト、推論、マルチモーダリティを統合する必要がある
- Authors: Mohamed Amine Kerkouri, Marouane Tliba, Aladine Chetouani, Nour Aburaed, Alessandro Bruno,
- Abstract要約: 平均オピニオンスコア(MOS)は、もはやマルチメディア品質評価モデルのための唯一の監督信号として不十分である。
品質評価を文脈的、説明可能、マルチモーダルなモデリングタスクとして再定義することで、より堅牢で、人間らしく、信頼性の高い評価システムへのシフトを触媒することを目指している。
- 参考スコア(独自算出の注目度): 45.34252727738116
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This position paper argues that Mean Opinion Score (MOS), while historically foundational, is no longer sufficient as the sole supervisory signal for multimedia quality assessment models. MOS reduces rich, context-sensitive human judgments to a single scalar, obscuring semantic failures, user intent, and the rationale behind quality decisions. We contend that modern quality assessment models must integrate three interdependent capabilities: (1) context-awareness, to adapt evaluations to task-specific goals and viewing conditions; (2) reasoning, to produce interpretable, evidence-grounded justifications for quality judgments; and (3) multimodality, to align perceptual and semantic cues using vision-language models. We critique the limitations of current MOS-centric benchmarks and propose a roadmap for reform: richer datasets with contextual metadata and expert rationales, and new evaluation metrics that assess semantic alignment, reasoning fidelity, and contextual sensitivity. By reframing quality assessment as a contextual, explainable, and multimodal modeling task, we aim to catalyze a shift toward more robust, human-aligned, and trustworthy evaluation systems.
- Abstract(参考訳): このポジションペーパーでは、Mean Opinion Score (MOS) は歴史的に基礎的ではあるが、もはやマルチメディア品質評価モデルのための唯一の監督信号として不十分であると主張している。
MOSは、リッチでコンテキストに敏感な人間の判断を単一のスカラーに減らし、意味的な失敗、ユーザの意図、品質決定の背後にある根拠を隠蔽する。
現代の品質評価モデルは,(1)タスク固有の目標や視聴条件に適応するための文脈認識,(2)品質判断のための解釈可能な根拠的正当性を生成するための推論,(3)視覚言語モデルを用いた知覚的・意味的手がかりの整合性,の3つの相互依存的能力を統合する必要がある。
我々は、現在のMOS中心のベンチマークの限界を批判し、コンテキストメタデータと専門家の合理性を備えたよりリッチなデータセットと、セマンティックアライメント、推論忠実性、文脈感受性を評価する新しい評価指標の改革のロードマップを提案する。
品質評価を文脈的、説明可能、マルチモーダルなモデリングタスクとして再定義することで、より堅牢で、人間的、信頼性の高い評価システムへのシフトを触媒することを目指している。
関連論文リスト
- Evaluating and Advancing Multimodal Large Language Models in Ability Lens [30.083110119139793]
textbfAbilityLensは、6つの重要な知覚能力にまたがるMLLMを評価するために設計された統一ベンチマークである。
現在のモデルの長所と短所を特定し、安定性のパターンを強調し、オープンソースモデルとクローズドソースモデルの顕著なパフォーマンスギャップを明らかにします。
また、早期訓練段階から最高の能力チェックポイントを組み合わせ、能力衝突による性能低下を効果的に軽減する、簡易な能力特異的モデルマージ手法を設計する。
論文 参考訳(メタデータ) (2024-11-22T04:41:20Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Do Vision-and-Language Transformers Learn Grounded Predicate-Noun
Dependencies? [0.06299766708197882]
制御されたセットアップにおける述語-名詞の依存関係の理解を評価することを目的とした新しいタスクを作成する。
我々は,最先端モデルの評価を行い,そのタスクにおける性能がかなり異なることを確認した。
本研究は,視覚・言語モデルにおけるマルチモーダル知識の正確かつ厳密なテストにおいて,ターゲット評価と制御評価が重要なステップであることを示す。
論文 参考訳(メタデータ) (2022-10-21T16:07:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。