論文の概要: QoNext: Towards Next-generation QoE for Foundation Models
- arxiv url: http://arxiv.org/abs/2509.21889v2
- Date: Thu, 09 Oct 2025 13:06:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.708359
- Title: QoNext: Towards Next-generation QoE for Foundation Models
- Title(参考訳): QoNext: ファウンデーションモデルのための次世代QoEを目指す
- Authors: Yijin Guo, Zicheng Zhang, Ye Shen, Farong Wen, Junying Wang, Qi Jia, Guangtao Zhai,
- Abstract要約: ファウンデーションモデルの既存の評価は、本当に重要なこと、つまりインタラクション中のユーザの経験を捉えるのに失敗します。
基礎モデルの評価にQuality of Experienceの原則を適用する最初のフレームワークであるQoNextを紹介します。
我々はQoE指向のデータベースを構築し、測定可能なシステムパラメータから知覚されたユーザエクスペリエンスを推定する予測モデルを訓練する。
- 参考スコア(独自算出の注目度): 63.76972456980632
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing evaluations of foundation models, including recent human-centric approaches, fail to capture what truly matters: user's experience during interaction. Current methods treat evaluation as a matter of output correctness alone, overlooking that user satisfaction emerges from the interplay between response quality and interaction, which limits their ability to account for the mechanisms underlying user experience. To address this gap, we introduce QoNext, the first framework that adapts Quality of Experience (QoE) principles from networking and multimedia to the assessment of foundation models. QoNext identifies experiential factors that shape user experience and incorporates them into controlled experiments, where human ratings are collected under varied configurations. From these studies we construct a QoE-oriented database and train predictive models that estimate perceived user experience from measurable system parameters. Our results demonstrate that QoNext not only enables proactive and fine-grained evaluation but also provides actionable guidance for productized services of optimizing foundation models in practice.
- Abstract(参考訳): 最近の人間中心のアプローチを含む既存のファンデーションモデルの評価は、本当に重要なこと、つまり、インタラクション中のユーザの経験を捉えることができません。
現在の手法では、ユーザ満足度が応答品質とインタラクションの相互作用から生じるのを見越して、ユーザエクスペリエンスの基盤となるメカニズムを考慮に入れない、アウトプットの正確性のみの問題として評価を扱います。
このギャップに対処するために、ネットワークやマルチメディアから基礎モデルの評価まで、QoE(Quality of Experience)の原則を適応させる最初のフレームワークであるQoNextを紹介します。
QoNextは、ユーザー体験を形作る経験的要因を特定し、それらを制御された実験に組み込む。
本研究では,QoE指向データベースを構築し,測定可能なシステムパラメータから知覚されたユーザエクスペリエンスを推定する予測モデルを訓練する。
以上の結果から,QoNextは積極的かつきめ細かな評価を可能にするだけでなく,実際に基礎モデルを最適化する製品化サービスに対して,実用的なガイダンスを提供することができた。
関連論文リスト
- EvolvR: Self-Evolving Pairwise Reasoning for Story Evaluation to Enhance Generation [17.37840331449749]
本稿では,ストーリー評価のための自己進化的ペアワイズ推論(EvolvR)フレームワークを提案する。
フレームワークはまず、マルチペルソナ戦略を通じてスコア整合型Chain-of-Thought(CoT)データを自己合成する。
精巧なデータに基づいて訓練された評価器を報奨モデルとして展開し、ストーリー生成タスクを誘導する。
論文 参考訳(メタデータ) (2025-08-08T06:10:47Z) - Human-in-the-loop online just-in-time software defect prediction [6.35776510153759]
我々は,SQAスタッフからのフィードバックを統合して予測プロセスを強化するHuman-In-The-Loop (HITL) O-JIT-SDPを提案する。
また,k-fold分散ブートストラップ法とWilcoxon符号ランク試験を併用した性能評価フレームワークを提案する。
これらの進歩は、産業アプリケーションにおけるO-JIT-SDPの価値を大幅に向上させる可能性を秘めている。
論文 参考訳(メタデータ) (2023-08-25T23:40:08Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
視覚言語モデルのマルチモーダル能力を評価するためのベンチマークであるMMBenchを提案する。
MMBenchは、よく設計された品質制御スキームで慎重にキュレートされている。
MMBenchは英語版と中国語版の両方で複数の質問を取り入れている。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Justification of Recommender Systems Results: A Service-based Approach [4.640835690336653]
本稿では,サービスモデルを用いて商品とのインタラクションのすべての段階に関するレビューから経験データを抽出する,新たな正当化手法を提案する。
ユーザスタディでは,提案手法を,推奨システムの結果の正当性を反映したベースラインと比較した。
我々のモデルは、好奇心のレベルが異なるユーザや、認知の必要度(NfC)の低いユーザによって、より高いインタフェース適合度と満足度の評価を受けた。
これらの知見は、推薦システムの結果を正当化するためのサービスモデルの導入を奨励するが、多様なインタラクションニーズに適合するパーソナライズ戦略の調査を推奨する。
論文 参考訳(メタデータ) (2022-11-07T11:08:19Z) - Post-hoc Models for Performance Estimation of Machine Learning Inference [22.977047604404884]
さまざまなシナリオにおいて、推論中に機械学習モデルがどれだけうまく機能するかを推定することが重要である。
性能評価をさまざまなメトリクスやシナリオに体系的に一般化する。
提案したポストホックモデルは標準信頼ベースラインを一貫して上回っていることがわかった。
論文 参考訳(メタデータ) (2021-10-06T02:20:37Z) - Study on the Assessment of the Quality of Experience of Streaming Video [117.44028458220427]
本稿では,ストリーミング映像のQoEの主観的推定に対する様々な客観的要因の影響について検討する。
本論文では標準的および手作り的特徴を示し,その相関とp値を示す。
SQoE-IIIデータベースは、これまでで最大の、そして最も現実的なデータベースだ。
論文 参考訳(メタデータ) (2020-12-08T18:46:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。