論文の概要: Cross-Examiner: Evaluating Consistency of Large Language Model-Generated Explanations
- arxiv url: http://arxiv.org/abs/2503.08815v1
- Date: Tue, 11 Mar 2025 18:50:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:29.596266
- Title: Cross-Examiner: Evaluating Consistency of Large Language Model-Generated Explanations
- Title(参考訳): Cross-Examiner: 大規模言語モデル生成説明の一貫性の評価
- Authors: Danielle Villa, Maria Chang, Keerthiram Murugesan, Rosario Uceda-Sosa, Karthikeyan Natesan Ramamurthy,
- Abstract要約: 大規模言語モデル(LLM)は、精度と透明性を高めるために出力を説明するように求められることが多い。
証拠は、これらの説明がモデルの真の推論過程を誤って表現できることを示唆している。
本稿では、モデルによる初期質問の説明に基づいて、フォローアップ質問を生成する新しい方法であるクロスアナライザを紹介する。
- 参考スコア(独自算出の注目度): 12.615208274851152
- License:
- Abstract: Large Language Models (LLMs) are often asked to explain their outputs to enhance accuracy and transparency. However, evidence suggests that these explanations can misrepresent the models' true reasoning processes. One effective way to identify inaccuracies or omissions in these explanations is through consistency checking, which typically involves asking follow-up questions. This paper introduces, cross-examiner, a new method for generating follow-up questions based on a model's explanation of an initial question. Our method combines symbolic information extraction with language model-driven question generation, resulting in better follow-up questions than those produced by LLMs alone. Additionally, this approach is more flexible than other methods and can generate a wider variety of follow-up questions.
- Abstract(参考訳): 大規模言語モデル(LLM)は、精度と透明性を高めるために出力を説明するように求められることが多い。
しかし、これらの説明がモデルの真の推論過程を誤って表現できる証拠が示唆されている。
これらの説明の不正確さや欠落を特定する効果的な方法の1つは、一貫性チェックによるものである。
本稿では、モデルによる初期質問の説明に基づいて、フォローアップ質問を生成する新しい方法であるクロスアナライザを紹介する。
提案手法は,記号情報抽出と言語モデルに基づく質問生成を組み合わせ,LLM単独で生成した情報よりも優れたフォローアップ質問を生成する。
さらに、このアプローチは他の方法よりも柔軟で、幅広いフォローアップ質問を生成することができる。
関連論文リスト
- Explain-Query-Test: Self-Evaluating LLMs Via Explanation and Comprehension Discrepancy [3.0429215246859465]
大規模言語モデル(LLM)は、詳細で一貫性のある説明を生成するのに顕著な習熟性を示した。
生成したコンテンツに対するモデルの理解度を評価するために,自己評価パイプラインを実装した。
この自己評価アプローチを Explain-Query-Test (EQT) と呼ぶ。
論文 参考訳(メタデータ) (2025-01-20T20:07:18Z) - Evaluating the Reliability of Self-Explanations in Large Language Models [2.8894038270224867]
このような自己説明の2つのタイプ – 抽出的, 対実的 – を評価した。
以上の結果から,これらの自己説明は人間の判断と相関するが,モデルの決定過程を完全に的確に従わないことが明らかとなった。
このギャップを橋渡しできるのは, 反実的な説明をLCMに促すことによって, 忠実で, 情報的で, 容易に検証できる結果が得られるからである。
論文 参考訳(メタデータ) (2024-07-19T17:41:08Z) - Towards More Faithful Natural Language Explanation Using Multi-Level
Contrastive Learning in VQA [7.141288053123662]
視覚的質問応答(VQA-NLE)における自然言語の説明は,ブラックボックスシステムに対するユーザの信頼を高めるために,自然言語文を生成することによって,モデルの意思決定プロセスを説明することを目的としている。
既存のポストホックな説明は、人間の論理的推論と常に一致している訳ではなく、1) 誘惑的不満足な説明は、生成した説明が論理的に答えに繋がらないこと、2) 現実的不整合性、2) 画像上の事実を考慮せずに解答の反事実的説明を偽示すること、3) 意味的摂動の過敏性、モデルは、小さな摂動によって引き起こされる意味的変化を認識できないこと、である。
論文 参考訳(メタデータ) (2023-12-21T05:51:55Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Towards LLM-guided Causal Explainability for Black-box Text Classifiers [16.36602400590088]
我々は,近年の大規模言語モデルにおける命令追従とテキスト理解機能を活用して,因果的説明可能性を高めることを目指している。
提案する3ステップパイプラインは,既製のLCMを用いて,入力テキスト中の潜時的・未観測な特徴を識別する。
我々は,複数のNLPテキスト分類データセットを用いたパイプライン実験を行い,興味深い,有望な結果を示した。
論文 参考訳(メタデータ) (2023-09-23T11:22:28Z) - Explainability for Large Language Models: A Survey [59.67574757137078]
大規模言語モデル(LLM)は、自然言語処理における印象的な能力を示している。
本稿では,トランスフォーマーに基づく言語モデルを記述する手法について,説明可能性の分類法を紹介した。
論文 参考訳(メタデータ) (2023-09-02T22:14:26Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - STREET: A Multi-Task Structured Reasoning and Explanation Benchmark [56.555662318619135]
マルチタスクとマルチドメインの自然言語推論と説明ベンチマークを統一的に導入する。
我々は、モデルが質問に答えるだけでなく、ある解の正しさを証明できる中間的な結論を生成するために、問題の前提がどのように使われているかを記述する、段階的に構造化された説明を生成することを期待している。
論文 参考訳(メタデータ) (2023-02-13T22:34:02Z) - Synthetic Prompting: Generating Chain-of-Thought Demonstrations for
Large Language Models [121.54462976635743]
大規模言語モデルはチェーン・オブ・ソート・プロンプトを使用して様々な推論タスクを実行でき、ステップ・バイ・ステップのデモを通じて回答を見つけることができる。
そこで本研究では,手作りの例を数種類活用して,モデルにさらに多くの例を生成する手法であるSynthetic promptingを紹介する。
本手法は数値的,記号的,アルゴリズム的推論タスクにおいて評価し,既存のプロンプト手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-02-01T17:33:12Z) - Discrete Reasoning Templates for Natural Language Understanding [79.07883990966077]
我々は,複雑な質問をより単純な質問に分解する手法を提案する。
事前定義された推論テンプレートの指示に従って最終回答を導出する。
我々のアプローチは、解釈可能でありながら最先端技術と競合し、監督をほとんど必要としないことを示す。
論文 参考訳(メタデータ) (2021-04-05T18:56:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。