論文の概要: Evaluating and Characterizing Human Rationales
- arxiv url: http://arxiv.org/abs/2010.04736v1
- Date: Fri, 9 Oct 2020 18:00:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 04:13:04.436679
- Title: Evaluating and Characterizing Human Rationales
- Title(参考訳): 人間の理性の評価と特徴付け
- Authors: Samuel Carton, Anirudh Rathore, Chenhao Tan
- Abstract要約: 人間の合理性は必ずしも自動メトリクスでうまく機能しない。
モデルに依存したベースライン性能を考慮に入れた改良指標を提案する。
私たちの研究は、合理性を評価し、特徴づけるための実用的な提案につながります。
- 参考スコア(独自算出の注目度): 12.678505281794715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Two main approaches for evaluating the quality of machine-generated
rationales are: 1) using human rationales as a gold standard; and 2) automated
metrics based on how rationales affect model behavior. An open question,
however, is how human rationales fare with these automatic metrics. Analyzing a
variety of datasets and models, we find that human rationales do not
necessarily perform well on these metrics. To unpack this finding, we propose
improved metrics to account for model-dependent baseline performance. We then
propose two methods to further characterize rationale quality, one based on
model retraining and one on using "fidelity curves" to reveal properties such
as irrelevance and redundancy. Our work leads to actionable suggestions for
evaluating and characterizing rationales.
- Abstract(参考訳): 機械生成論理の質を評価する2つの主要なアプローチは以下のとおりである。
1) 金本位制としての人間の合理性
2)モデルの振る舞いに合理性がどう影響するかに基づく自動メトリクス。
しかし、オープンな疑問は、これらの自動メトリクスが人間の理性にどう影響するかである。
さまざまなデータセットやモデルを分析した結果、人間の合理性は必ずしもこれらの指標でうまく機能しないことがわかった。
この発見を解き放つために,モデル依存のベースライン性能を考慮した改善指標を提案する。
次に,モデルのリトレーニングに基づく2つの手法と,不適切性や冗長性などの特性を明らかにするために「忠実度曲線」を用いる方法を提案する。
我々の研究は合理性を評価・特徴付けるための有効な提案に繋がる。
関連論文リスト
- QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - What is the Best Automated Metric for Text to Motion Generation? [19.71712698183703]
自然言語の記述から骨格に基づく人間の動きを生成することへの関心が高まっている。
人間の評価は、このタスクの究極の精度測定であり、自動化されたメトリクスは、人間の品質判断とよく相関するべきである。
本稿では,どの指標が人間の評価に最も適しているかを体系的に検討し,さらに適合する新しい指標を提案する。
論文 参考訳(メタデータ) (2023-09-19T01:59:54Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - Are Machine Rationales (Not) Useful to Humans? Measuring and Improving
Human Utility of Free-Text Rationales [62.02328001381361]
既存の合理性の人的効用は十分ではなく、人間の研究で見積もるのに費用がかかることを示す。
我々は、この発見を自動スコア GEN-U に翻訳し、人間の実用性を改善することによって、LM の合理性を生み出す能力を向上させるのに役立つ。
論文 参考訳(メタデータ) (2023-05-11T19:01:13Z) - Are Neural Topic Models Broken? [81.15470302729638]
トピックモデルの自動評価と人的評価の関係について検討する。
ニューラルトピックモデルは、確立された古典的手法と比較して、両方の点においてより悪くなる。
論文 参考訳(メタデータ) (2022-10-28T14:38:50Z) - Does Self-Rationalization Improve Robustness to Spurious Correlations? [19.553357015260687]
自己合理化のためのトレーニングモデルが、正しい理由でタスクを解決するための学習に役立つかどうかを問う。
細調整エンコーダデコーダとデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデオーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダデコーダのロバスト性の評価を行った。
自己組織化は低リソース環境での相関関係を刺激することでロバスト性を改善することができるが、高リソース環境ではロバスト性を損なう傾向にある。
論文 参考訳(メタデータ) (2022-10-24T19:54:57Z) - The Glass Ceiling of Automatic Evaluation in Natural Language Generation [60.59732704936083]
ステップバックして、既存の自動メトリクスと人的メトリクスのボディを比較して、最近の進歩を分析します。
古いものや新しいものといった自動メトリクスは、人間よりもずっと似ています。
論文 参考訳(メタデータ) (2022-08-31T01:13:46Z) - Using Shape Metrics to Describe 2D Data Points [0.0]
本稿では,2次元データを記述するために形状計測を用いて,解析をより説明しやすく解釈可能にすることを提案する。
これは、説明可能性の権利が不可欠である医療コミュニティにおける応用において特に重要である。
論文 参考訳(メタデータ) (2022-01-27T23:28:42Z) - What to Learn, and How: Toward Effective Learning from Rationales [10.287185780246247]
合理性から学ぶことは、それらのラベルを正当化する人間が提供する合理性によるモデルトレーニングを強化することを目指している。
我々の研究は、人間の説明の性質を理解し、モデルトレーニングでそれらを活用することの重要性を強調している。
論文 参考訳(メタデータ) (2021-11-30T20:09:53Z) - Is Automated Topic Model Evaluation Broken?: The Incoherence of
Coherence [62.826466543958624]
トピックモデル評価における標準化のギャップと検証のギャップについて考察する。
これらの指標によると、最近のニューラルネットワークコンポーネントに依存したモデルは、古典的なトピックモデルを超えている。
我々は,話題評価と単語侵入という,最も広く受け入れられている2つの人間の判断タスクとともに,自動的コヒーレンスを用いる。
論文 参考訳(メタデータ) (2021-07-05T17:58:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。