論文の概要: HEDS 3.0: The Human Evaluation Data Sheet Version 3.0
- arxiv url: http://arxiv.org/abs/2412.07940v1
- Date: Tue, 10 Dec 2024 21:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:01:49.942543
- Title: HEDS 3.0: The Human Evaluation Data Sheet Version 3.0
- Title(参考訳): HEDS 3.0: Human Evaluation Data Sheet Version 3.0
- Authors: Anya Belz, Craig Thomson,
- Abstract要約: HEDS 3.0パッケージは、完成したデータシートをラテックスファイルとしてエクスポートするためのデジタルデータシート、ドキュメント、コードで構成され、すべてHEDS GitHubから入手できる。
- 参考スコア(独自算出の注目度): 7.206588085447605
- License:
- Abstract: This paper presents version 3.0 of the Human Evaluation Datasheet (HEDS). This update is the result of our experience using HEDS in the context of numerous recent human evaluation experiments, including reproduction studies, and of feedback received. Our main overall goal was to improve clarity, and to enable users to complete the datasheet more consistently and comparably. The HEDS 3.0 package consists of the digital data sheet, documentation, and code for exporting completed data sheets as latex files, all available from the HEDS GitHub.
- Abstract(参考訳): 本稿では,Human Evaluation Datasheet (HEDS)のバージョン3.0を示す。
この更新は、再生研究やフィードバックのフィードバックを含む、最近の多くの人的評価実験の文脈で、HEDSを使用した経験の結果である。
当社の主な目標は、明確性の向上と、ユーザによるデータシートの一貫性と互換性の向上です。
HEDS 3.0パッケージは、完成したデータシートをラテックスファイルとしてエクスポートするためのデジタルデータシート、ドキュメント、コードで構成され、すべてHEDS GitHubから入手できる。
関連論文リスト
- Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - SynthDoc: Bilingual Documents Synthesis for Visual Document Understanding [23.910783272007407]
本稿では、ビジュアル文書理解(VDU)を強化するために設計された新しい合成文書生成パイプラインであるSynthDocを紹介する。
データ取得の課題と既存のデータセットの制限に対処するため、SynthDocは、一般公開されたコーパスと高度なレンダリングツールを活用して、包括的な汎用データセットを作成する。
ドナウモデルを用いて実験を行った結果,SynthDocのデータを用いて学習したモデルは,事前学習された読み出しタスクにおいて優れた性能を示し,言語的矛盾にもかかわらず,下流タスクにおいて堅牢性を維持することができた。
論文 参考訳(メタデータ) (2024-08-27T03:31:24Z) - Language Modeling with Editable External Knowledge [90.7714362827356]
本稿では,新たな文書取得時のモデル動作を改善するERASEを提案する。
ドキュメントを追加するたびに、知識ベースで他のエントリを段階的に削除または書き直します。
7-13%(Mixtral-8x7B)と6-10%(Llama-3-8B)の精度を向上する。
論文 参考訳(メタデータ) (2024-06-17T17:59:35Z) - HelloFresh: LLM Evaluations on Streams of Real-World Human Editorial Actions across X Community Notes and Wikipedia edits [92.62157408704594]
HelloFreshは、本質的に動機づけられた人間のラベルによって生成された実世界のデータの連続的なストリームに基づいている。
ウィキペディアページのX(元Twitter)コミュニティノートと編集の最近のイベントをカバーしている。
テストデータの汚染とベンチマークオーバーフィッティングのリスクを軽減します。
論文 参考訳(メタデータ) (2024-06-05T16:25:57Z) - Do-GOOD: Towards Distribution Shift Evaluation for Pre-Trained Visual
Document Understanding Models [68.12229916000584]
本研究では,文書画像関連タスクの微粒化解析のためのDO-GOOD(Out-of-distriion)ベンチマークを開発した。
次に、ロバスト性を評価し、5つの最新のVDU事前学習モデルと2つの典型的なOOD一般化アルゴリズムのきめ細かい解析を行う。
論文 参考訳(メタデータ) (2023-06-05T06:50:42Z) - Prompted Opinion Summarization with GPT-3.5 [115.95460650578678]
GPT-3.5モデルは人体評価において非常に高い性能を示す。
我々は,標準評価指標がこれを反映していないことを論じ,忠実性,事実性,汎用性を重視した3つの新しい指標を導入する。
論文 参考訳(メタデータ) (2022-11-29T04:06:21Z) - Revisiting DocRED -- Addressing the False Negative Problem in Relation
Extraction [39.78594332093083]
DocREDデータセットに4,053のドキュメントを再注釈し、失敗した関係を元のDocREDに追加しました。
両データセット上で最先端のニューラルモデルによる広範な実験を行い、実験結果から、Re-DocREDでトレーニングおよび評価されたモデルが、約13F1ポイントのパフォーマンス改善を実現していることが示された。
論文 参考訳(メタデータ) (2022-05-25T11:54:48Z) - PeerSum: A Peer Review Dataset for Abstractive Multi-document
Summarization [37.53183784486546]
PeerSumは、科学出版物のピアレビューを用いた新しいMDSデータセットである。
現在のMDSモデルは、PeerSumの高品質な要約を生成するのに苦労しています。
論文 参考訳(メタデータ) (2022-03-03T15:27:02Z) - SacreROUGE: An Open-Source Library for Using and Developing
Summarization Evaluation Metrics [74.28810048824519]
SacreROUGEは、要約評価メトリクスの使用と開発のためのオープンソースライブラリである。
このライブラリは、既存の評価メトリクスの公式実装に関するPythonラッパーを提供する。
ライブラリに実装されたメトリックが、人間による注釈付き判断とどの程度の相関があるかを評価する機能を提供する。
論文 参考訳(メタデータ) (2020-07-10T13:26:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。