Fugu-MT 論文翻訳(概要): Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions

論文の概要: Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions

arxiv url: http://arxiv.org/abs/2302.13925v2
Date: Thu, 18 May 2023 20:43:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-22 18:56:26.784317
Title: Epicurus at SemEval-2023 Task 4: Improving Prediction of Human Values behind Arguments by Leveraging Their Definitions
Title（参考訳）: SemEval-2023タスク4におけるエピキュラス:定義の活用による議論の背景にある人的価値の予測の改善
Authors: Christian Fang, Qixiang Fang, Dong Nguyen
Abstract要約: 本稿では,SemEval-2023 Task 4における議論の背景にある人間の価値の同定実験について述べる。人間の価値は、正確な定義を必要とする主観的な概念であるため、モデルトレーニング中に人間の価値の定義を取り入れることで、より良い予測性能が得られるという仮説を立てる。
参考スコア（独自算出の注目度）: 5.343406649012618
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We describe our experiments for SemEval-2023 Task 4 on the identification of human values behind arguments (ValueEval). Because human values are subjective concepts which require precise definitions, we hypothesize that incorporating the definitions of human values (in the form of annotation instructions and validated survey items) during model training can yield better prediction performance. We explore this idea and show that our proposed models perform better than the challenge organizers' baselines, with improvements in macro F1 scores of up to 18%.
Abstract（参考訳）: 本稿では,SemEval-2023 Task 4における議論の背景にある人間の価値の同定実験について述べる。人的価値は正確な定義を必要とする主観的な概念であるため、モデルトレーニング中に人的価値の定義(アノテーション命令や検証済み調査項目の形で)を組み込むことで、より良い予測性能が得られるという仮説を立てる。我々は,提案するモデルが主催者のベースラインよりも優れた性能を示し,マクロf1スコアを最大18%改善した。

関連論文リスト

HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。 HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文参考訳（メタデータ） (2024-12-20T03:26:47Z)
Towards Unifying Evaluation of Counterfactual Explanations: Leveraging Large Language Models for Human-Centric Assessments [0.7852714805965528]
206人の回答者から8つの評価指標にまたがって、30のカウンターファクトのシナリオを作成し、評価を収集する。これらの指標で平均的または個人的判断を予測するために、さまざまな大規模言語モデルを微調整しました。
論文参考訳（メタデータ） (2024-10-28T15:33:37Z)
Evaluating the Utility of Model Explanations for Model Development [54.23538543168767]
機械学習モデル構築の実践シナリオにおいて、説明が人間の意思決定を改善するかどうかを評価する。驚いたことに、サリエンシマップが提供されたとき、タスクが大幅に改善されたという証拠は見つからなかった。以上の結果から,サリエンシに基づく説明における誤解の可能性と有用性について注意が必要であることが示唆された。
論文参考訳（メタデータ） (2023-12-10T23:13:23Z)
It HAS to be Subjective: Human Annotator Simulation via Zero-shot Density Estimation [15.8765167340819]
人間アノテーションシミュレーション(Human Annotator Simulation, HAS)は、データアノテーションやシステムアセスメントなどの人的評価の代用として費用対効果がある。人間の評価中の人間の知覚と行動は、多様な認知過程と主観的解釈による固有の多様性を示す。本稿では,HASをゼロショット密度推定問題として扱うメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2023-09-30T20:54:59Z)
SocREval: Large Language Models with the Socratic Method for Reference-Free Reasoning Evaluation [78.23119125463964]
我々は,参照フリー推論評価における新規な設計手法であるSocREvalを開発した。 SocREvalはGPT-4の性能を大幅に改善し、既存の参照フリーおよび参照ベース推論評価指標を上回っている。
論文参考訳（メタデータ） (2023-09-29T18:25:46Z)
Human Feedback is not Gold Standard [28.63384327791185]
我々は、トレーニングと評価の両方において、人間のフィードバックの使用を批判的に分析する。選好スコアはかなり良いカバレッジを持っているが、事実性のような重要な側面は低く表現されている。
論文参考訳（メタデータ） (2023-09-28T11:18:20Z)
Value Kaleidoscope: Engaging AI with Pluralistic Human Values, Rights, and Duties [68.66719970507273]
価値多元性とは、複数の正しい値が互いに緊張して保持されるという考え方である。統計的学習者として、AIシステムはデフォルトで平均に適合する。 ValuePrismは、218kの値、権利、義務の大規模なデータセットで、31kの人間が記述した状況に関連付けられています。
論文参考訳（メタデータ） (2023-09-02T01:24:59Z)
Rudolf Christoph Eucken at SemEval-2023 Task 4: An Ensemble Approach for Identifying Human Values from Arguments [0.0]
議論テキストから人間の値を検出するためのアンサンブル手法を提案する。我々のアンサンブルは3つのモデルから構成される: (i) 説明に基づいて人間の値を決定するエンテーメントベースモデル、 (ii) 議論から人間の値の集合を予測するロバータベースの分類器。
論文参考訳（メタデータ） (2023-05-09T10:54:34Z)
Bridging the Gap: A Survey on Integrating (Human) Feedback for Natural Language Generation [68.9440575276396]
この調査は、人間のフィードバックを利用して自然言語生成を改善した最近の研究の概要を提供することを目的としている。まず、フィードバックの形式化を包括的に導入し、この形式化に続いて既存の分類学研究を特定・整理する。第二に、フィードバックを形式や目的によってどのように記述するかを議論し、フィードバック(トレーニングやデコード)を直接使用したり、フィードバックモデルをトレーニングしたりするための2つのアプローチについて取り上げる。第3に、AIフィードバックの生まれたばかりの分野の概要を紹介します。これは、大きな言語モデルを利用して、一連の原則に基づいて判断し、必要最小限にします。
論文参考訳（メタデータ） (2023-05-01T17:36:06Z)
Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation [136.16507050034755]
要約のための既存の人間の評価研究は、アノテータ間の合意が低かったり、スケールが不十分だったりしている。細粒度セマンティック・ユニットをベースとした改良された要約サリエンス・プロトコルであるAtomic Content Units (ACUs)を提案する。ロバスト・サムライゼーション・アセスメント(RoSE)ベンチマークは,28の上位性能システム上で22,000の要約レベルのアノテーションからなる大規模な人的評価データセットである。
論文参考訳（メタデータ） (2022-12-15T17:26:05Z)
Enabling Classifiers to Make Judgements Explicitly Aligned with Human Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文参考訳（メタデータ） (2022-10-14T09:10:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。