論文の概要: Self-Critique and Refinement for Faithful Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2505.22823v1
- Date: Wed, 28 May 2025 20:08:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.513273
- Title: Self-Critique and Refinement for Faithful Natural Language Explanations
- Title(参考訳): 忠実な自然言語説明のための自己批判と再定義
- Authors: Yingming Wang, Pepa Atanasova,
- Abstract要約: 本稿では,自然言語解説の自己批判と再定義について紹介する。
このフレームワークは、モデルが自身の説明の忠実さを改善することを可能にする。
SR-NLEは不誠実度を著しく低下させる。
- 参考スコア(独自算出の注目度): 15.04835537752639
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of large language models (LLMs), natural language explanations (NLEs) have become increasingly important for understanding model predictions. However, these explanations often fail to faithfully represent the model's actual reasoning process. While existing work has demonstrated that LLMs can self-critique and refine their initial outputs for various tasks, this capability remains unexplored for improving explanation faithfulness. To address this gap, we introduce Self-critique and Refinement for Natural Language Explanations (SR-NLE), a framework that enables models to improve the faithfulness of their own explanations -- specifically, post-hoc NLEs -- through an iterative critique and refinement process without external supervision. Our framework leverages different feedback mechanisms to guide the refinement process, including natural language self-feedback and, notably, a novel feedback approach based on feature attribution that highlights important input words. Our experiments across three datasets and four state-of-the-art LLMs demonstrate that SR-NLE significantly reduces unfaithfulness rates, with our best method achieving an average unfaithfulness rate of 36.02%, compared to 54.81% for baseline -- an absolute reduction of 18.79%. These findings reveal that the investigated LLMs can indeed refine their explanations to better reflect their actual reasoning process, requiring only appropriate guidance through feedback without additional training or fine-tuning.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な発展に伴い、自然言語説明(NLE)はモデル予測を理解する上でますます重要になっている。
しかしながら、これらの説明は、しばしばモデルの実際の推論過程を忠実に表現しない。
既存の研究は、LLMが様々なタスクに対して自己批判し、初期出力を洗練できることを示したが、この能力は説明の忠実性を改善するために探索されていない。
このギャップに対処するために、我々は、外部の監督なしに反復的な批評と洗練プロセスを通じて、モデルが自身の説明(特にポストホックなNLE)の忠実さを改善することができるフレームワークである、自然言語説明のための自己批判と再定義(SR-NLE)を紹介します。
我々のフレームワークは、自然言語の自己フィードバックや、重要な入力単語をハイライトする特徴属性に基づく新しいフィードバックアプローチなど、さまざまなフィードバックメカニズムを活用して改善プロセスの導出を行う。
3つのデータセットと4つの最先端LCMによる実験は、SR-NLEが平均不信率36.02%を達成するのに対して、ベースラインの54.81%である18.79%と、SR-NLEが著しく不信率を低下させることを示した。
これらの結果から, LLMは, 学習や微調整を伴わずに, フィードバックによる適切な指導しか必要とせず, 実際の推論過程をよりよく反映できるように, 説明を洗練できることが明らかとなった。
関連論文リスト
- ReflectEvo: Improving Meta Introspection of Small LLMs by Learning Self-Reflection [60.75785864719726]
本稿では,小言語モデル(SLM)がリフレクション学習を通じてメタイントロスペクションを向上させることを実証するために,新しいパイプラインであるReflectEvoを提案する。
大規模かつ包括的かつ自己生成型リフレクションデータセットであるReflectEvo-460kを構築し,多様なマルチドメインタスクを実現する。
論文 参考訳(メタデータ) (2025-05-22T10:03:05Z) - Improving Retrieval Augmented Language Model with Self-Reasoning [20.715106330314605]
本稿では,ALMの信頼性とトレーサビリティ向上を目的とした,新たな自己推論フレームワークを提案する。
このフレームワークは、関連性を認識したプロセス、エビデンスを認識した選択プロセス、軌跡解析プロセスの3つのプロセスで自己推論軌道を構築することを含む。
提案手法の優位性を示すため,4つの公開データセットにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-07-29T09:05:10Z) - Learning to Refine with Fine-Grained Natural Language Feedback [81.70313509881315]
我々は,3つの異なるLLM能力の構成要素として,フィードバックによる洗練を検討することを提案する。
提案手法の鍵となる特性は,ステップ2の批判モデルがエラーに対してきめ細かいフィードバックを与えることができる点である。
文書基盤要約の事実整合性を改善する作業において,異なる機能モデルがDCRによる精細化の恩恵を受けることを示す。
論文 参考訳(メタデータ) (2024-07-02T16:15:01Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。
これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。
自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文 参考訳(メタデータ) (2024-02-07T09:09:14Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z) - Explanations from Large Language Models Make Small Reasoners Better [61.991772773700006]
提案手法は, 異なる設定において, 微調整ベースラインを連続的に, 著しく向上させることができることを示す。
副次的な利点として、人間の評価は、その予測を正当化するために高品質な説明を生成することができることを示す。
論文 参考訳(メタデータ) (2022-10-13T04:50:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。