Fugu-MT 論文翻訳(概要): Could Bibliometrics Reveal Top Science and Technology Achievements and Researchers? The Case for Evaluatology-based Science and Technology Evaluation

論文の概要: Could Bibliometrics Reveal Top Science and Technology Achievements and Researchers? The Case for Evaluatology-based Science and Technology Evaluation

arxiv url: http://arxiv.org/abs/2408.12158v1
Date: Thu, 22 Aug 2024 06:57:46 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-23 14:53:12.241714
Title: Could Bibliometrics Reveal Top Science and Technology Achievements and Researchers? The Case for Evaluatology-based Science and Technology Evaluation
Title（参考訳）: バイオロメトリは科学とテクノロジーの成果と研究者に貢献できるか? : 評価学に基づく科学技術評価の事例
Authors: Guoxin Kang, Wanling Gao, Lei Wang, Chunjie Luo, Hainan Ye, Qian He, Shaopeng Dai, Jianfeng Zhan,
Abstract要約: 評価学に基づく科学技術評価手法を提案する。このアプローチの中心には、フィールドから派生した8つの重要なコンポーネントを含む拡張評価条件の概念がある。チップ技術やオープンソースのような特定の分野において、すべての成果の進化と発展を正確に追跡できる完璧な評価モデルを構築します。
参考スコア（独自算出の注目度）: 5.203905488272949
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: By utilizing statistical methods to analyze bibliographic data, bibliometrics faces inherent limitations in identifying the most significant science and technology achievements and researchers. To overcome this challenge, we present an evaluatology-based science and technology evaluation methodology. At the heart of this approach lies the concept of an extended evaluation condition, encompassing eight crucial components derived from a field. We define four relationships that illustrate the connections among various achievements based on their mapped extended EC components, as well as their temporal and citation links. Within a relationship under an extended evaluation condition, evaluators can effectively compare these achievements by carefully addressing the influence of confounding variables. We establish a real-world evaluation system encompassing an entire collection of achievements, each of which is mapped to several components of an extended EC. Within a specific field like chip technology or open source, we construct a perfect evaluation model that can accurately trace the evolution and development of all achievements in terms of four relationships based on the real-world evaluation system. Building upon the foundation of the perfect evaluation model, we put forth four-round rules to eliminate non-significant achievements by utilizing four relationships. This process allows us to establish a pragmatic evaluation model that effectively captures the essential achievements, serving as a curated collection of the top N achievements within a specific field during a specific timeframe. We present a case study on the top 100 Chip achievements which highlights its practical application and efficacy in identifying significant achievements and researchers that otherwise can not be identified by using bibliometrics.
Abstract（参考訳）: 統計学的手法を用いて文献データを解析することにより、文献学は最も重要な科学と技術の成果と研究者を特定するのに固有の限界に直面している。この課題を克服するために,評価学に基づく科学技術評価手法を提案する。このアプローチの中心には、フィールドから派生した8つの重要なコンポーネントを含む拡張評価条件の概念がある。マッピングされた拡張ECコンポーネントと、時間的および引用的リンクに基づいて、様々な成果間の関係を記述した4つの関係を定義した。評価条件が拡張された関係において、評価者は、共起変数の影響を慎重に解決することにより、これらの成果を効果的に比較することができる。我々は,成果の集合全体を含む実世界の評価システムを構築し,それらを拡張ECの複数のコンポーネントにマッピングする。チップ技術やオープンソースのような特定の分野において、実世界の評価システムに基づく4つの関係から、すべての成果の進化と発展を正確に追跡できる完璧な評価モデルを構築する。完全評価モデルの基礎を築き,4つの関係を利用して,重要でない成果を排除するための4段階のルールを策定した。このプロセスにより、特定の時間枠内でトップNの達成点のキュレートされたコレクションとして機能し、重要な達成点を効果的にキャプチャする実用的評価モデルを確立することができる。本研究は, バイオロメトリを用いて識別できない重要な成果と研究者を識別するための実践的応用と有効性を強調した, トップ100チップの成果に関するケーススタディである。

関連論文リスト

Evaluation in EEG Emotion Recognition: State-of-the-Art Review and Unified Framework [14.019800269775262]
近年,脳波を用いた感情認識(EEG-ER)が研究領域として発展している。本稿では,新しい手法とデータセットの簡易かつ効率的な評価を可能にする統一評価プロトコルEEGainを提案する。 EEGainには、データ前処理、データ分割、評価メトリクス、最も関連する6つのデータセットをロードする機能のための標準化されたメソッドが含まれている。
論文参考訳（メタデータ） (2025-05-14T20:44:39Z)
Lessons from the trenches on evaluating machine-learning systems in materials science [0.3592274960837379]
科学における機械学習評価フレームワークの現状と今後の方向性について検討する。構成妥当性,データ品質問題,メートル法設計制限,ベンチマーク保守問題など,機械学習評価に共通する課題を特定する。本研究では,測定選択と制限を文書化するための構造化手法として評価カードを提案する。
論文参考訳（メタデータ） (2025-03-13T19:40:58Z)
A Shared Standard for Valid Measurement of Generative AI Systems' Capabilities, Risks, and Impacts [38.66213773948168]
生成AI(GenAI)システムの能力、リスク、影響の有効な測定は、これらのシステムを評価する能力の基盤となる。本稿では,現在使用されている様々な評価手法の多くを,共通の足場に配置する上で有効な評価基準を提案する。
論文参考訳（メタデータ） (2024-12-02T19:50:00Z)
User-centric evaluation of explainability of AI with and for humans: a comprehensive empirical study [5.775094401949666]
この研究はHuman-Centered Artificial Intelligence (HCAI)にある。一般的に使用されるeXplainable Artificial Intelligence (XAI)アルゴリズムのユーザ中心評価の結果に焦点を当てている。
論文参考訳（メタデータ） (2024-10-21T12:32:39Z)
STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。 STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文参考訳（メタデータ） (2024-09-09T06:55:37Z)
Good Idea or Not, Representation of LLM Could Tell [86.36317971482755]
我々は、大規模言語モデルの知識を活用し、科学的アイデアのメリットを評価することを目的としたアイデアアセスメントに焦点をあてる。我々は、このタスクに対する様々なアプローチのパフォーマンスを訓練し評価するために、細心の注意を払って設計された、フルテキストを持つ約4万の原稿からベンチマークデータセットをリリースする。その結果, 大規模言語モデルの表現は, 生成出力よりもアイデアの価値を定量化する可能性が高いことが示唆された。
論文参考訳（メタデータ） (2024-09-07T02:07:22Z)
Long-Range Biometric Identification in Real World Scenarios: A Comprehensive Evaluation Framework Based on Missions [11.557368031775717]
本稿では,高度・範囲の個人を特定するための研究ソリューションについて検討する。顔と身体の特徴を融合させることにより,有効な長距離識別のための堅牢な生体計測システムの開発を提案する。
論文参考訳（メタデータ） (2024-09-03T02:17:36Z)
What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文参考訳（メタデータ） (2024-08-26T20:35:42Z)
On the Element-Wise Representation and Reasoning in Zero-Shot Image Recognition: A Systematic Survey [82.49623756124357]
ゼロショット画像認識(ZSIR)は、目に見えない領域の認識と推論をモデルに与えることを目的としている。本稿では,近年の素子ワイドZSIRの進歩について概説する。まず、オブジェクト認識、合成認識、基礎モデルに基づくオープンワールド認識という3つの基本的なZSIRタスクを、統一された要素的視点に統合する。
論文参考訳（メタデータ） (2024-08-09T05:49:21Z)
On the Evaluation Consistency of Attribution-based Explanations [42.1421504321572]
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。 1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
論文参考訳（メタデータ） (2024-07-28T11:49:06Z)
Evaluating Human-AI Collaboration: A Review and Methodological Framework [4.41358655687435]
人間-AIコラボレーション(Human-AI Collaboration、HAIC)として知られる個人との作業環境における人工知能(AI)の利用が不可欠である。 HAICの有効性を評価することは、関連するコンポーネントの複雑な相互作用のため、依然として困難である。本稿では,既存のHAIC評価手法を詳細に分析し,これらのシステムをより効果的に評価するための新しいパラダイムを開発する。
論文参考訳（メタデータ） (2024-07-09T12:52:22Z)
A Comprehensive Survey on Underwater Image Enhancement Based on Deep Learning [51.7818820745221]
水中画像強調(UIE)はコンピュータビジョン研究において重要な課題である。多数のUIEアルゴリズムが開発されているにもかかわらず、網羅的で体系的なレビューはいまだに欠落している。
論文参考訳（メタデータ） (2024-05-30T04:46:40Z)
Evaluatology: The Science and Engineering of Evaluation [11.997673313601423]
本稿では,評価の科学と工学を包含する評価学の分野を正式に紹介することを目的とする。本稿では,様々な分野にまたがって適用可能な概念,用語,理論,方法論を包含して評価するための普遍的な枠組みを提案する。
論文参考訳（メタデータ） (2024-03-19T13:38:26Z)
Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
AGIEval: A Human-Centric Benchmark for Evaluating Foundation Models [122.63704560157909]
我々は,人間中心の標準化試験の文脈で基礎モデルを評価するために設計された新しいベンチマークであるAGIEvalを紹介する。 GPT-4, ChatGPT, Text-Davinci-003 など,最先端基盤モデルの評価を行った。 GPT-4はSAT、LSAT、数学の競争で平均的な人事成績を上回り、SAT Mathテストでは95%の精度で、中国国立大学入試では92.5%の精度で合格している。
論文参考訳（メタデータ） (2023-04-13T09:39:30Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文参考訳（メタデータ） (2021-08-09T17:39:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。