論文の概要: Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2304.08174v1
- Date: Mon, 3 Apr 2023 08:24:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-23 04:25:22.918673
- Title: Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks
- Title(参考訳): 忠実性ベンチマーク:視覚言語タスクにおける正確な自然言語説明に向けて
- Authors: Jakob Ambsdorf
- Abstract要約: 自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With deep neural models increasingly permeating our daily lives comes a need
for transparent and comprehensible explanations of their decision-making.
However, most explanation methods that have been developed so far are not
intuitively understandable for lay users. In contrast, natural language
explanations (NLEs) promise to enable the communication of a model's
decision-making in an easily intelligible way. While current models
successfully generate convincing explanations, it is an open question how well
the NLEs actually represent the reasoning process of the models - a property
called faithfulness. Although the development of metrics to measure
faithfulness is crucial to designing more faithful models, current metrics are
either not applicable to NLEs or are not designed to compare different model
architectures across multiple modalities.
Building on prior research on faithfulness measures and based on a detailed
rationale, we address this issue by proposing three faithfulness metrics:
Attribution-Similarity, NLE-Sufficiency, and NLE-Comprehensiveness. The
efficacy of the metrics is evaluated on the VQA-X and e-SNLI-VE datasets of the
e-ViL benchmark for vision-language NLE generation by systematically applying
modifications to the performant e-UG model for which we expect changes in the
measured explanation faithfulness. We show on the e-SNLI-VE dataset that the
removal of redundant inputs to the explanation-generation module of e-UG
successively increases the model's faithfulness on the linguistic modality as
measured by Attribution-Similarity. Further, our analysis demonstrates that
NLE-Sufficiency and -Comprehensiveness are not necessarily correlated to
Attribution-Similarity, and we discuss how the two metrics can be utilized to
gain further insights into the explanation generation process.
- Abstract(参考訳): ディープニューラルモデルが日々の生活に浸透するにつれ、彼らの意思決定について透明で理解可能な説明が必要になる。
しかし,これまで開発されたほとんどの説明手法は,日常ユーザにとって直感的に理解できない。
対照的に、自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明を生み出すことに成功したが、NLEが実際にモデルの推論過程(忠実性と呼ばれる性質)をいかにうまく表現しているかは、明らかな疑問である。
忠実度を測定するためのメトリクスの開発は、より忠実なモデルを設計するために重要であるが、現在のメトリクスはNLEに適用できないか、複数のモダリティで異なるモデルアーキテクチャを比較するように設計されていない。
忠実度尺度の先行研究と詳細な理論的根拠に基づいて、帰属相似性、NLE相似性、NLE-包括性という3つの忠実度指標を提案する。
本手法の有効性は,評価された説明忠実度の変化を期待する実演e-UGモデルに体系的に修正を加えることで,視覚言語NLE生成のためのe-ViLベンチマークのVQA-Xおよびe-SNLI-VEデータセットを用いて評価する。
e-snli-veデータセットでは,e-ugの説明生成モジュールへの冗長入力の削除が,帰属相似性によって測定された言語的モダリティに対するモデルの忠実性を高めることを示した。
さらに,NLE-Sufficiency と -Comprehensiveness は必ずしも属性-相似性と相関しないことを示した。
関連論文リスト
- Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。
この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Verbalized Probabilistic Graphical Modeling with Large Language Models [8.961720262676195]
この研究は、大規模言語モデルによる学習自由ベイズ推論を促進する新しいベイズ急進的アプローチを導入している。
本研究は,AI言語理解システムの改善の可能性を示すとともに,信頼性評価とテキスト生成品質を効果的に向上させることを示唆する。
論文 参考訳(メタデータ) (2024-06-08T16:35:31Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - KNOW How to Make Up Your Mind! Adversarially Detecting and Alleviating
Inconsistencies in Natural Language Explanations [52.33256203018764]
不整合性NLEを検出するために既存の敵攻撃を大幅に改善するために,外部知識ベースを活用する。
高いNLE品質のモデルが必ずしも矛盾を生じさせるとは限らないことを示す。
論文 参考訳(メタデータ) (2023-06-05T15:51:58Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Faithfulness Tests for Natural Language Explanations [87.01093277918599]
ニューラルモデルの説明は、その予測のためのモデルの意思決定プロセスを明らかにすることを目的としている。
近年の研究では,サリエンシマップやファクトファクトファクトダクトなどの説明を行う手法が誤解を招く可能性があることが示されている。
本研究は,自然言語の説明の忠実さを評価する上での課題について考察する。
論文 参考訳(メタデータ) (2023-05-29T11:40:37Z) - Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。
我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。
AMPLIFYは,幅広いタスクに対して約10~25%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-05-19T04:46:04Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。