論文の概要: REV: Information-Theoretic Evaluation of Free-Text Rationales
- arxiv url: http://arxiv.org/abs/2210.04982v1
- Date: Mon, 10 Oct 2022 19:31:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 15:27:19.374505
- Title: REV: Information-Theoretic Evaluation of Free-Text Rationales
- Title(参考訳): REV:自由テキスト合理化の情報理論評価
- Authors: Hanjie Chen, Faeze Brahman, Xiang Ren, Yangfeng Ji, Yejin Choi, Swabha
Swayamdipta
- Abstract要約: 我々は、理想的な計量は、入力やラベルに提供されない理性において一意に提供される新しい情報に焦点を合わせることができるべきだと論じる。
本稿では,REV(Rationale Evaluation with Conditional V-information)と呼ばれる指標を提案する。
- 参考スコア(独自算出の注目度): 83.24985872655738
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Free-text rationales are a promising step towards explainable AI, yet their
evaluation remains an open research problem. While existing metrics have mostly
focused on measuring the direct association between the rationale and a given
label, we argue that an ideal metric should also be able to focus on the new
information uniquely provided in the rationale that is otherwise not provided
in the input or the label. We investigate this research problem from an
information-theoretic perspective using the conditional V-information. More
concretely, we propose a metric called REV (Rationale Evaluation with
conditional V-information), that can quantify the new information in a
rationale supporting a given label beyond the information already available in
the input or the label. Experiments on reasoning tasks across four benchmarks,
including few-shot prompting with GPT-3, demonstrate the effectiveness of REV
in evaluating different types of rationale-label pairs, compared to existing
metrics. Through several quantitative comparisons, we demonstrate the
capability of REV in providing more sensitive measurements of new information
in free-text rationales with respect to a label. Furthermore, REV is consistent
with human judgments on rationale evaluations. Overall, when used alongside
traditional performance metrics, REV provides deeper insights into a models'
reasoning and prediction processes.
- Abstract(参考訳): 自由文理性は説明可能なAIへの有望なステップであるが、その評価は依然としてオープンな研究課題である。
既存のメトリクスは、主に有理数と与えられたラベルの直接的な関連性を測定することに重点を置いているが、理想的な計量は、入力やラベルに提供されない有理数に固有の情報に焦点を合わせることもできるべきだと我々は主張する。
本研究は条件付きv-情報を用いて情報理論的な観点から検討する。
より具体的には,REV(Rationale Evaluation with Conditional V-information)と呼ばれるメトリクスを提案し,入力やラベルで既に利用可能な情報以外に,与えられたラベルをサポートする理論的根拠で新たな情報を定量化することができる。
GPT-3による数ショットプロンプトを含む4つのベンチマークにおける推論タスクの実験は、既存の指標と比較して、異なるタイプの有理値-ラベルペアの評価におけるREVの有効性を示す。
いくつかの定量的比較を通じて,ラベルに対する自由文有理数における新しい情報のより敏感な測定を行う上で,REVの能力を示す。
さらに、REVは合理的評価に関する人間の判断と一致している。
全体として、従来のパフォーマンス指標と併用すると、REVはモデルの推論と予測プロセスに関する深い洞察を提供する。
関連論文リスト
- EVA-Score: Evaluating Abstractive Long-form Summarization on Informativeness through Extraction and Validation [24.259369307335774]
EVA-Scoreは抽象的な長文要約の評価指標である。
EVAスコアは人間との相関が最も高いことを示す。
また,LLMの長文要約性能を情報の観点から再評価する。
論文 参考訳(メタデータ) (2024-07-06T06:02:38Z) - RORA: Robust Free-Text Rationale Evaluation [52.98000150242775]
本稿では,ラベルリークに対するロバスト自由テキストRationaleの評価手法であるRORAを提案する。
RORAは、人間の書き起こし、合成、またはモデル生成の合理性を評価する既存のアプローチを一貫して上回っている。
また、RORAは人間の判断とよく一致していることを示し、多様な自由文理性にまたがってより信頼性と正確な測定を提供する。
論文 参考訳(メタデータ) (2024-02-28T19:46:21Z) - Cobra Effect in Reference-Free Image Captioning Metrics [58.438648377314436]
視覚言語事前学習モデル(VLM)を活用した参照フリー手法の普及が出現している。
本稿では,基準自由度に欠陥があるかどうかを考察する。
GPT-4Vは生成した文を評価するための評価ツールであり,提案手法がSOTA(State-of-the-art)の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-02-18T12:36:23Z) - Measuring Information in Text Explanations [23.929076318334047]
情報理論の枠組みに説明を配置することで、2つの一般的なテキスト説明手法の評価を統一することができると論じる。
これらのチャネルを流れる情報の流れを定量化し、説明特性の評価を容易にする。
我々の研究は、説明可能なAIの急速に発展する分野において、厳格で標準化された評価基準を確立するための継続的な努力に貢献している。
論文 参考訳(メタデータ) (2023-10-06T19:46:51Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。
これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。
本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文 参考訳(メタデータ) (2022-12-15T15:52:39Z) - Towards Explainable Evaluation Metrics for Natural Language Generation [36.594817754285984]
重要な特性を特定し,機械翻訳評価指標の重要な目標を提案する。
我々は,従来のNLP手法が高品質なブラックボックス評価指標の限界を自動的に識別するのに不適であることを示す新しい実験を行った。
論文 参考訳(メタデータ) (2022-03-21T17:05:54Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。