論文の概要: FRAME: Evaluating Simulatability Metrics for Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2207.00779v1
- Date: Sat, 2 Jul 2022 09:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:36:50.023441
- Title: FRAME: Evaluating Simulatability Metrics for Free-Text Rationales
- Title(参考訳): FRAME: 自由テキスト合理化のためのシミュラビリティメトリクスの評価
- Authors: Aaron Chan, Shaoliang Nie, Liang Tan, Xiaochang Peng, Hamed Firooz,
Maziar Sanjabi, Xiang Ren
- Abstract要約: 自由文論理は、自然言語を通してより柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。
合理性の品質を確保するためには、合理性の忠実さと妥当性を測る指標を持つことが重要である。
本稿では,自由文論理的シミュラビリティ指標を評価するためのフレームワークFRAMEを提案する。
- 参考スコア(独自算出の注目度): 26.58948555913936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-text rationales aim to explain neural language model (LM) behavior more
flexibly and intuitively via natural language. To ensure rationale quality, it
is important to have metrics for measuring rationales' faithfulness (reflects
LM's actual behavior) and plausibility (convincing to humans). All existing
free-text rationale metrics are based on simulatability (association between
rationale and LM's predicted label), but there is no protocol for assessing
such metrics' reliability. To investigate this, we propose FRAME, a framework
for evaluating free-text rationale simulatability metrics. FRAME is based on
three axioms: (1) good metrics should yield highest scores for reference
rationales, which maximize rationale-label association by construction; (2)
good metrics should be appropriately sensitive to semantic perturbation of
rationales; and (3) good metrics should be robust to variation in the LM's task
performance. Across three text classification datasets, we show that existing
simulatability metrics cannot satisfy all three FRAME axioms, since they are
implemented via model pretraining which muddles the metric's signal. We
introduce a non-pretraining simulatability variant that improves performance on
(1) and (3) by an average of 41.7% and 42.9%, respectively, while performing
competitively on (2).
- Abstract(参考訳): 自由文論理は、自然言語を通して柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。
合理性の品質を確保するためには、合理性の忠実さ(LMの実際の振る舞いを反映)と妥当性(人間への信頼)を測定するためのメトリクスを持つことが重要である。
既存のすべての自由文合理化メトリクスは、シミュラビリティ(理性とLMの予測ラベルの関連性)に基づいているが、そのようなメトリクスの信頼性を評価するためのプロトコルはない。
そこで本研究では,自由文合理化シミュラビリティ評価のためのフレームワークFRAMEを提案する。
フレームワークは、3つの公理に基づいている:(1)良いメトリクスは基準の合理性に対して最高のスコアを与え、それによって構成による合理性-ラベル関係を最大化する;(2)良いメトリクスは合理性のセマンティックな摂動に適切に敏感でなければならない;(3)良いメトリクスはlmのタスクパフォーマンスの変動に頑健であるべきである。
3つのテキスト分類データセットにまたがって、既存のシミュラビリティの指標が3つのFRAME公理を全て満たせないことを示す。
本報告では,(1)および(3)における性能を平均41.7%,42.9%向上させ,(2)上での競争性能を向上する非予測的シミュラビリティ・バリアントを導入する。
関連論文リスト
- Tailoring Self-Rationalizers with Multi-Reward Distillation [92.30314799349617]
大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。
提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
論文 参考訳(メタデータ) (2023-11-06T00:20:11Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - TRUE: Re-evaluating Factual Consistency Evaluation [29.888885917330327]
TRUE: 多様なタスクから既存のテキストの標準化されたコレクション上での、事実整合性メトリクスの総合的な研究である。
我々の標準化により、前述した相関よりも動作可能で解釈可能なサンプルレベルのメタ評価プロトコルが実現される。
さまざまな最先端のメトリクスと11のデータセットから、大規模NLIと質問生成と回答に基づくアプローチが、強力で相補的な結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2022-04-11T10:14:35Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。