論文の概要: Beyond the Binary: The System of All-round Evaluation of Research and Its Practices in China
- arxiv url: http://arxiv.org/abs/2509.08546v1
- Date: Wed, 10 Sep 2025 12:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.421681
- Title: Beyond the Binary: The System of All-round Evaluation of Research and Its Practices in China
- Title(参考訳): バイナリを超えて:中国における研究の全体評価システムとその実践
- Authors: Yu Zhu, Jiyuan Ye,
- Abstract要約: 本稿では, 形態, 内容, 実用性評価を6つのキー要素に統合したSAER(System of All-round Evaluation of Research)を提案する。
総合的なシステムでは,3つの評価次元のトリニティと6つの評価要素が組み合わされ,学術的評価者や研究者が評価手法における二項対立の調整を支援する。
- 参考スコア(独自算出の注目度): 3.6998581528902625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The lack of a macro-level, systematic evaluation theory to guide the implementation of evaluation practices has become a key bottleneck in the reform of global research evaluation systems. By reviewing the historical development of research evaluation, this paper highlights the current binary opposition between qualitative and quantitative methods in evaluation practices. This paper introduces the System of All-round Evaluation of Research (SAER), a framework that integrates form, content, and utility evaluations with six key elements. SAER offers a theoretical breakthrough by transcending the binary, providing a comprehensive foundation for global evaluation reforms. The comprehensive system proposes a trinity of three evaluation dimensions, combined with six evaluation elements, which would help academic evaluators and researchers reconcile binary oppositions in evaluation methods. The system highlights the dialectical wisdom and experience embedded in Chinese research evaluation theory, offering valuable insights and references for the reform and advancement of global research evaluation systems.
- Abstract(参考訳): 評価実践の実施を導くマクロレベルの体系的評価理論が欠如していることは、グローバルな研究評価システムの改革において重要なボトルネックとなっている。
研究評価の歴史的展開を概観することにより,評価実践における質的手法と量的手法の相違点について概説する。
本稿では, 形態, 内容, 実用性評価を6つのキー要素に統合したSAER(System of All-round Evaluation of Research)を提案する。
SAERはバイナリを超越することで理論的なブレークスルーをもたらし、グローバルな評価改革のための総合的な基盤を提供する。
総合的なシステムでは,3つの評価次元のトリニティと6つの評価要素が組み合わされ,学術的評価者や研究者が評価手法における二項対立の調整を支援する。
このシステムは、中国の研究評価理論に埋め込まれた弁証的知恵と経験を強調し、グローバルな研究評価システムの改革と発展のための貴重な洞察と参照を提供する。
関連論文リスト
- Preliminary suggestions for rigorous GPAI model evaluations [0.0]
本論文では,汎用AI(GPAI)評価プラクティスの予備的なコンパイルについて述べる。
これには、人間の隆起研究とベンチマーク評価のための提案が含まれている。
提案は評価ライフサイクルの4つの段階(設計、実装、実行、ドキュメント)にまたがる。
論文 参考訳(メタデータ) (2025-07-22T03:27:42Z) - SPHERE: An Evaluation Card for Human-AI Systems [75.0887588648484]
本稿では,5つの重要次元を含む評価カードSPHEREを提案する。
我々はSPHEREを用いた39の人間AIシステムのレビューを行い、現在の評価実践と改善の分野の概要を述べる。
論文 参考訳(メタデータ) (2025-03-24T20:17:20Z) - Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。
我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。
その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文 参考訳(メタデータ) (2024-09-07T02:07:22Z) - Are we making progress in unlearning? Findings from the first NeurIPS unlearning competition [70.60872754129832]
アンラーニングに関する最初のNeurIPSコンペティションは、新しいアルゴリズムの開発を刺激しようとした。
世界中から約1200チームが参加した。
トップソリューションを分析し、アンラーニングのベンチマークに関する議論を掘り下げます。
論文 参考訳(メタデータ) (2024-06-13T12:58:00Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - DaisyRec 2.0: Benchmarking Recommendation for Rigorous Evaluation [24.12886646161467]
我々は,厳密な評価のための推薦のベンチマークを目指して,実践理論と実験の観点から研究を行う。
理論的には, 評価連鎖全体を通して, 推薦性能に影響を与える一連の超因子を体系的に要約し, 分析する。
実験では,これらのハイパーファクタを統合し,厳密な評価を行うことにより,DaisyRec 2.0ライブラリをリリースする。
論文 参考訳(メタデータ) (2022-06-22T05:17:50Z) - How to Evaluate Your Dialogue Models: A Review of Approaches [2.7834038784275403]
まず,評価手法を3つのクラス,すなわち自動評価,人間関係評価,ユーザシミュレータによる評価に分割する。
また,対話手法の評価に適したベンチマークの存在についても詳細に論じている。
論文 参考訳(メタデータ) (2021-08-03T08:52:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。