論文の概要: Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values
behind Arguments by Leveraging Their Definitions
- arxiv url: http://arxiv.org/abs/2302.13925v2
- Date: Thu, 18 May 2023 20:43:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-22 18:56:26.784317
- Title: Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values
behind Arguments by Leveraging Their Definitions
- Title(参考訳): SemEval-2023タスク4におけるエピキュラス:定義の活用による議論の背景にある人的価値の予測の改善
- Authors: Christian Fang, Qixiang Fang, Dong Nguyen
- Abstract要約: 本稿では,SemEval-2023 Task 4における議論の背景にある人間の価値の同定実験について述べる。
人間の価値は、正確な定義を必要とする主観的な概念であるため、モデルトレーニング中に人間の価値の定義を取り入れることで、より良い予測性能が得られるという仮説を立てる。
- 参考スコア(独自算出の注目度): 5.343406649012618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We describe our experiments for SemEval-2023 Task 4 on the identification of
human values behind arguments (ValueEval). Because human values are subjective
concepts which require precise definitions, we hypothesize that incorporating
the definitions of human values (in the form of annotation instructions and
validated survey items) during model training can yield better prediction
performance. We explore this idea and show that our proposed models perform
better than the challenge organizers' baselines, with improvements in macro F1
scores of up to 18%.
- Abstract(参考訳): 本稿では,SemEval-2023 Task 4における議論の背景にある人間の価値の同定実験について述べる。
人的価値は正確な定義を必要とする主観的な概念であるため、モデルトレーニング中に人的価値の定義(アノテーション命令や検証済み調査項目の形で)を組み込むことで、より良い予測性能が得られるという仮説を立てる。
我々は,提案するモデルが主催者のベースラインよりも優れた性能を示し,マクロf1スコアを最大18%改善した。
関連論文リスト
- HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。
これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文 参考訳(メタデータ) (2024-10-28T15:33:37Z) - Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。
驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。
以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文 参考訳(メタデータ) (2023-12-10T23:13:23Z) - It HAS to be Subjective: Human Annotator Simulation via Zero-shot
Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。
人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。
本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-30T20:54:59Z) - SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。
SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文 参考訳(メタデータ) (2023-09-29T18:25:46Z) - Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。
選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文 参考訳(メタデータ) (2023-09-28T11:18:20Z) - Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。
統計的学習者として、AIシステムはデフォルトで平均に適合する。
ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文 参考訳(メタデータ) (2023-09-02T01:24:59Z) - Rudolf Christoph Eucken at SemEval-2023 Task 4: An Ensemble Approach for
Identifying Human Values from Arguments [0.0]
議論テキストから人間の値を検出するためのアンサンブル手法を提案する。
我々のアンサンブルは3つのモデルから構成される: (i) 説明に基づいて人間の値を決定するエンテーメントベースモデル、 (ii) 議論から人間の値の集合を予測するロバータベースの分類器。
論文 参考訳(メタデータ) (2023-05-09T10:54:34Z) - Revisiting the Gold Standard: Grounding Summarization Evaluation with
Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。
細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。
ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文 参考訳(メタデータ) (2022-12-15T17:26:05Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。