論文の概要: RORA: Robust Free-Text Rationale Evaluation
- arxiv url: http://arxiv.org/abs/2402.18678v3
- Date: Sat, 15 Jun 2024 00:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 05:46:37.711796
- Title: RORA: Robust Free-Text Rationale Evaluation
- Title(参考訳): RORA:ロバストなフリーテキストライタリー評価
- Authors: Zhengping Jiang, Yining Lu, Hanjie Chen, Daniel Khashabi, Benjamin Van Durme, Anqi Liu,
- Abstract要約: 本稿では,ラベルリークに対するロバスト自由テキストRationaleの評価手法であるRORAを提案する。
RORAは、人間の書き起こし、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回っている。
また、RORAは人間の判断とよく一致していることを示し、多様な自由文理性にまたがってより信頼性と正確な測定を提供する。
- 参考スコア(独自算出の注目度): 52.98000150242775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-text rationales play a pivotal role in explainable NLP, bridging the knowledge and reasoning gaps behind a model's decision-making. However, due to the diversity of potential reasoning paths and a corresponding lack of definitive ground truth, their evaluation remains a challenge. Existing evaluation metrics rely on the degree to which a rationale supports a target label, but we find these fall short in evaluating rationales that inadvertently leak the labels. To address this problem, we propose RORA, a Robust free-text Rationale evaluation against label leakage. RORA quantifies the new information supplied by a rationale to justify the label. This is achieved by assessing the conditional V-information \citep{hewitt-etal-2021-conditional} with a predictive family robust against leaky features that can be exploited by a small model. RORA consistently outperforms existing approaches in evaluating human-written, synthetic, or model-generated rationales, particularly demonstrating robustness against label leakage. We also show that RORA aligns well with human judgment, providing a more reliable and accurate measurement across diverse free-text rationales.
- Abstract(参考訳): 自由文理性は説明可能なNLPにおいて重要な役割を担い、モデルの意思決定の背後にある知識と推論のギャップを埋める。
しかしながら、潜在的な推論経路の多様性とそれに伴う決定的な根拠の欠如により、それらの評価は依然として課題である。
既存の評価指標は、合理的なラベルが対象ラベルをサポートする程度に依存していますが、ラベルを不注意にリークする合理性の評価ではこれらが不足していることが分かりました。
この問題に対処するため,ラベルリークに対するロバスト自由文Rationale評価法であるRORAを提案する。
RORAは、ラベルを正当化するために合理的に提供される新しい情報を定量化する。
これは、小さなモデルで活用できる漏洩した特徴に対して頑健な予測系を持つ条件V-information \citep{hewitt-etal-2021-conditional}を評価することで達成される。
RORAは、人間の書き起こし、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回り、特にラベルの漏洩に対する堅牢性を示す。
また、RORAは人間の判断とよく一致していることを示し、多様な自由文理性にまたがってより信頼性と正確な測定を提供する。
関連論文リスト
- D-Separation for Causal Self-Explanation [19.68235036397476]
本稿では,MCD(Minimum Conditional Dependence)基準と呼ばれる因果的根拠を明らかにするための新しい基準を提案する。
我々は、MCDが従来の最先端のMMIベースの手法と比較して、F1スコアを最大13.7%向上させることを実証した。
論文 参考訳(メタデータ) (2023-09-23T14:23:19Z) - Robust Representation Learning for Unreliable Partial Label Learning [86.909511808373]
部分ラベル学習(Partial Label Learning, PLL)は、弱い教師付き学習の一種で、各トレーニングインスタンスに候補ラベルのセットが割り当てられる。
これはUn Reliable partial Label Learning (UPLL) と呼ばれ、部分ラベルの本質的な信頼性の欠如とあいまいさにより、さらなる複雑さをもたらす。
本研究では,信頼できない部分ラベルに対するモデル強化を支援するために,信頼性に欠けるコントラスト学習を活用するUnreliability-Robust Representation Learning framework(URRL)を提案する。
論文 参考訳(メタデータ) (2023-08-31T13:37:28Z) - From Adversarial Arms Race to Model-centric Evaluation: Motivating a
Unified Automatic Robustness Evaluation Framework [91.94389491920309]
テキストの敵対攻撃は、セマンティック保存されているが、入力に誤解を招く摂動を加えることでモデルの弱点を発見することができる。
既存のロバストネス評価の実践は、包括的評価、非現実的評価プロトコル、無効な対人サンプルの問題を示す可能性がある。
我々は、敵攻撃の利点を活用するために、モデル中心の評価にシフトする統合された自動ロバストネス評価フレームワークを構築した。
論文 参考訳(メタデータ) (2023-05-29T14:55:20Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - REV: Information-Theoretic Evaluation of Free-Text Rationales [83.24985872655738]
理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである、と我々は主張する。
本稿では,REV (Rationale Evaluation with Conditional V-information) と呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2022-10-10T19:31:30Z) - Measuring Association Between Labels and Free-Text Rationales [60.58672852655487]
解釈可能なNLPでは、説明された例に対するモデルの意思決定プロセスを反映した忠実な理性が必要です。
情報抽出型タスクに対する忠実な抽出合理化のための既存のモデルであるパイプラインは、自由テキスト合理化を必要とするタスクに確実に拡張されないことを示す。
我々は、信頼が確立されていない自由文合理化のための、広く使われている高性能モデルのクラスである、共同予測と合理化のモデルに目を向ける。
論文 参考訳(メタデータ) (2020-10-24T03:40:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。