論文の概要: FRAME: Evaluating Simulatability Metrics for Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2207.00779v1
- Date: Sat, 2 Jul 2022 09:25:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 12:36:50.023441
- Title: FRAME: Evaluating Simulatability Metrics for Free-Text Rationales
- Title(参考訳): FRAME: 自由テキスト合理化のためのシミュラビリティメトリクスの評価
- Authors: Aaron Chan, Shaoliang Nie, Liang Tan, Xiaochang Peng, Hamed Firooz,
Maziar Sanjabi, Xiang Ren
- Abstract要約: 自由文論理は、自然言語を通してより柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。
合理性の品質を確保するためには、合理性の忠実さと妥当性を測る指標を持つことが重要である。
本稿では,自由文論理的シミュラビリティ指標を評価するためのフレームワークFRAMEを提案する。
- 参考スコア(独自算出の注目度): 26.58948555913936
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-text rationales aim to explain neural language model (LM) behavior more
flexibly and intuitively via natural language. To ensure rationale quality, it
is important to have metrics for measuring rationales' faithfulness (reflects
LM's actual behavior) and plausibility (convincing to humans). All existing
free-text rationale metrics are based on simulatability (association between
rationale and LM's predicted label), but there is no protocol for assessing
such metrics' reliability. To investigate this, we propose FRAME, a framework
for evaluating free-text rationale simulatability metrics. FRAME is based on
three axioms: (1) good metrics should yield highest scores for reference
rationales, which maximize rationale-label association by construction; (2)
good metrics should be appropriately sensitive to semantic perturbation of
rationales; and (3) good metrics should be robust to variation in the LM's task
performance. Across three text classification datasets, we show that existing
simulatability metrics cannot satisfy all three FRAME axioms, since they are
implemented via model pretraining which muddles the metric's signal. We
introduce a non-pretraining simulatability variant that improves performance on
(1) and (3) by an average of 41.7% and 42.9%, respectively, while performing
competitively on (2).
- Abstract(参考訳): 自由文論理は、自然言語を通して柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。
合理性の品質を確保するためには、合理性の忠実さ(LMの実際の振る舞いを反映)と妥当性(人間への信頼)を測定するためのメトリクスを持つことが重要である。
既存のすべての自由文合理化メトリクスは、シミュラビリティ(理性とLMの予測ラベルの関連性)に基づいているが、そのようなメトリクスの信頼性を評価するためのプロトコルはない。
そこで本研究では,自由文合理化シミュラビリティ評価のためのフレームワークFRAMEを提案する。
フレームワークは、3つの公理に基づいている:(1)良いメトリクスは基準の合理性に対して最高のスコアを与え、それによって構成による合理性-ラベル関係を最大化する;(2)良いメトリクスは合理性のセマンティックな摂動に適切に敏感でなければならない;(3)良いメトリクスはlmのタスクパフォーマンスの変動に頑健であるべきである。
3つのテキスト分類データセットにまたがって、既存のシミュラビリティの指標が3つのFRAME公理を全て満たせないことを示す。
本報告では,(1)および(3)における性能を平均41.7%,42.9%向上させ,(2)上での競争性能を向上する非予測的シミュラビリティ・バリアントを導入する。
関連論文リスト
- Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Log Probabilities Are a Reliable Estimate of Semantic Plausibility in Base and Instruction-Tuned Language Models [50.15455336684986]
意味的妥当性を評価するため,LogProbsの有効性と基本的なプロンプトを評価した。
LogProbsは、直接ゼロショットプロンプトよりも、より信頼性の高いセマンティックな妥当性を提供する。
我々は,プロンプトベースの評価の時代においても,LogProbsは意味的妥当性の有用な指標である,と結論付けた。
論文 参考訳(メタデータ) (2024-03-21T22:08:44Z) - Tailoring Self-Rationalizers with Multi-Reward Distillation [88.95781098418993]
大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。
提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
論文 参考訳(メタデータ) (2023-11-06T00:20:11Z) - On the Limitations of Reference-Free Evaluations of Generated Text [64.81682222169113]
基準のないメトリクスは本質的にバイアスがあり、生成したテキストを評価する能力に制限があることを示す。
機械翻訳や要約といったタスクの進捗を計測するために使用するべきではない、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-22T22:12:06Z) - SMART: Sentences as Basic Units for Text Evaluation [48.5999587529085]
本稿では,このような制約を緩和するSMARTと呼ばれる新しい指標を提案する。
文をトークンの代わりにマッチングの基本単位として扱い,ソフトマッチ候補と参照文に文マッチング関数を用いる。
この結果から,提案手法とモデルベースマッチング関数とのシステムレベルの相関は,全ての競合する指標よりも優れていた。
論文 参考訳(メタデータ) (2022-08-01T17:58:05Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。