論文の概要: REV: Information-Theoretic Evaluation of Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2210.04982v5
- Date: Fri, 2 Jun 2023 15:27:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-05 20:46:08.868440
- Title: REV: Information-Theoretic Evaluation of Free-Text Rationales
- Title(参考訳): REV:自由テキスト合理化の情報理論評価
- Authors: Hanjie Chen, Faeze Brahman, Xiang Ren, Yangfeng Ji, Yejin Choi, Swabha
Swayamdipta
- Abstract要約: 理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである、と我々は主張する。
本稿では,REV (Rationale Evaluation with Conditional V-information) と呼ばれる手法を提案する。
- 参考スコア(独自算出の注目度): 83.24985872655738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating free-text rationales is a promising step towards explainable NLP,
yet evaluating such rationales remains a challenge. Existing metrics have
mostly focused on measuring the association between the rationale and a given
label. We argue that an ideal metric should focus on the new information
uniquely provided in the rationale that is otherwise not provided in the input
or the label. We investigate this research problem from an
information-theoretic perspective using conditional V-information (Hewitt et
al., 2021). More concretely, we propose a metric called REV (Rationale
Evaluation with conditional V-information), to quantify the amount of new,
label-relevant information in a rationale beyond the information already
available in the input or the label. Experiments across four benchmarks with
reasoning tasks, including chain-of-thought, demonstrate the effectiveness of
REV in evaluating rationale-label pairs, compared to existing metrics. We
further demonstrate REV is consistent with human judgments on rationale
evaluations and provides more sensitive measurements of new information in
free-text rationales. When used alongside traditional performance metrics, REV
provides deeper insights into models' reasoning and prediction processes.
- Abstract(参考訳): 自由文有理数の生成は、説明可能なNLPへの有望なステップであるが、そのような有理数の評価は依然として課題である。
既存のメトリクスは主に、合理的性と与えられたラベルの関係を測定することに重点を置いています。
理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を当てるべきである。
本研究は,条件付きV情報を用いた情報理論の観点から検討する(Hewitt et al., 2021)。
より具体的には,REV(Rationale Evaluation with Conditional V-information)と呼ばれるメトリクスを提案し,入力やラベルで既に利用可能な情報以外の理性理論において,ラベル関連情報量の定量化を行う。
思考の連鎖を含む推論タスクを伴う4つのベンチマーク実験は、既存のメトリクスと比較して合理性とラベルのペアを評価する上でのREVの有効性を示す。
さらに、REVは、有理性評価に関する人間の判断と整合性を示し、自由文有理性における新しい情報のより敏感な測定を提供する。
従来のパフォーマンス指標と並行して使用すると、REVはモデルの推論と予測プロセスに関する深い洞察を提供する。
関連論文リスト
- EVA-Score: Evaluating Abstractive Long-form Summarization on Informativeness through Extraction and Validation [24.259369307335774]
EVA-Scoreは抽象的な長文要約の評価指標である。
EVAスコアは人間との相関が最も高いことを示す。
また,LLMの長文要約性能を情報の観点から再評価する。
論文 参考訳(メタデータ) (2024-07-06T06:02:38Z) - RORA: Robust Free-Text Rationale Evaluation [52.98000150242775]
本稿では,ラベルリークに対するロバスト自由テキストRationaleの評価手法であるRORAを提案する。
RORAは、人間の書き起こし、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回っている。
また、RORAは人間の判断とよく一致していることを示し、多様な自由文理性にまたがってより信頼性と正確な測定を提供する。
論文 参考訳(メタデータ) (2024-02-28T19:46:21Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Measuring Information in Text Explanations [23.929076318334047]
情報理論の枠組みに説明を配置することで、2つの一般的なテキスト説明手法の評価を統一することができると論じる。
これらのチャネルを流れる情報の流れを定量化し、説明特性の評価を容易にする。
我々の研究は、説明可能なAIの急速に発展する分野において、厳格で標準化された評価基準を確立するための継続的な努力に貢献している。
論文 参考訳(メタデータ) (2023-10-06T19:46:51Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。