Fugu-MT 論文翻訳(概要): Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models

論文の概要: Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models

arxiv url: http://arxiv.org/abs/2402.04614v3
Date: Thu, 14 Mar 2024 03:48:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-16 01:42:38.579734
Title: Faithfulness vs. Plausibility: On the (Un)Reliability of Explanations from Large Language Models
Title（参考訳）: Fithfulness vs. Plausibility:大規模言語モデルからの説明の信頼性について
Authors: Chirag Agarwal, Sree Harsha Tanneru, Himabindu Lakkaraju,
Abstract要約: 大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。 LLMが生成するSEの忠実度と妥当性の両立を論じる。
参考スコア（独自算出の注目度）: 26.11408084129897
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are deployed as powerful tools for several natural language processing (NLP) applications. Recent works show that modern LLMs can generate self-explanations (SEs), which elicit their intermediate reasoning steps for explaining their behavior. Self-explanations have seen widespread adoption owing to their conversational and plausible nature. However, there is little to no understanding of their faithfulness. In this work, we discuss the dichotomy between faithfulness and plausibility in SEs generated by LLMs. We argue that while LLMs are adept at generating plausible explanations -- seemingly logical and coherent to human users -- these explanations do not necessarily align with the reasoning processes of the LLMs, raising concerns about their faithfulness. We highlight that the current trend towards increasing the plausibility of explanations, primarily driven by the demand for user-friendly interfaces, may come at the cost of diminishing their faithfulness. We assert that the faithfulness of explanations is critical in LLMs employed for high-stakes decision-making. Moreover, we emphasize the need for a systematic characterization of faithfulness-plausibility requirements of different real-world applications and ensure explanations meet those needs. While there are several approaches to improving plausibility, improving faithfulness is an open challenge. We call upon the community to develop novel methods to enhance the faithfulness of self explanations thereby enabling transparent deployment of LLMs in diverse high-stakes settings.
Abstract（参考訳）: 大規模言語モデル(LLM)は、いくつかの自然言語処理(NLP)アプリケーションのための強力なツールとしてデプロイされる。最近の研究は、現代のLSMが自己説明(Ses)を生成できることを示している。自己説明は、会話的かつもっともらしい性質のために広く採用されている。しかし、彼らの忠実さをほとんど理解していない。本研究では, LLM によるSEs の忠実度と妥当性の両立を論じる。これらの説明は、LLMの推論プロセスと必ずしも一致せず、その忠実さに対する懸念を提起する。ユーザフレンドリーなインターフェースの需要に起因した説明の妥当性向上に対する現在の傾向は、彼らの忠実さを損なう可能性があることを強調する。我々は、高い意思決定に使用されるLCMにおいて、説明の忠実さが重要であると断言する。さらに,実世界の様々なアプリケーションにおいて,信頼度・楽観性要件の体系的評価の必要性を強調し,それらの要求を満たす説明を確実にする。可否性を改善するためのいくつかのアプローチがあるが、忠実性を改善することはオープンな課題である。我々はコミュニティに自己説明の忠実性を高める新しい手法を開発し、多種多様なハイテイク環境におけるLCMの透過的な展開を可能にするよう呼びかける。

関連論文リスト

Can LLMs Faithfully Explain Themselves in Low-Resource Languages? A Case Study on Emotion Detection in Persian [0.0]
大規模言語モデル(LLM)は、予測と並行して自己説明を生成するためにますます使用される。本研究では,ペルシャ語における感情分類の文脈におけるLLM生成の説明の忠実性を評価する。
論文参考訳（メタデータ） (2025-11-24T21:29:15Z)
Bayesian Teaching Enables Probabilistic Reasoning in Large Language Models [50.16340812031201]
我々は,大規模言語モデル (LLM) がベイジアンフレームワークから期待されているように,その信念を更新しないことを示す。我々は、最適ベイズモデルの予測を模倣するように訓練することで、ベイズ的な推論をLLMに教える。
論文参考訳（メタデータ） (2025-03-21T20:13:04Z)
Interpreting and Steering LLMs with Mutual Information-based Explanations on Sparse Autoencoders [29.356200147371275]
大きな言語モデル(LLM)は人間のクエリを扱うのに優れていますが、時に欠陥や予期せぬ応答を生成することができます。特徴解釈と相互情報に基づく目的設計のための固定語彙集合を提案する。そこで本研究では,学習した機能アクティベーションを,対応する説明に基づいて調整する2つの実行時ステアリング戦略を提案する。
論文参考訳（メタデータ） (2025-02-21T16:36:42Z)
SEER: Self-Explainability Enhancement of Large Language Models' Representations [18.840860385644316]
大規模言語モデル(LLM)を説明する自己説明法SEERを提案する。本稿では、同じ概念を集約し、表現空間における異なる概念を分離することにより、LLMの説明可能性を高める自己説明法SEERを提案する。自己説明型LLMが説明可能性と性能を一貫した改善を達成するための信頼性関連タスクへのSEERの適用について紹介する。
論文参考訳（メタデータ） (2025-02-07T13:25:33Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
Towards Logically Consistent Language Models via Probabilistic Reasoning [14.317886666902822]
大規模言語モデル(LLM)は、自然言語理解および生成タスクのための有望な場所である。 LLMは、非現実的な情報を生成し、世界の信念を推論するよう促されたときに矛盾する傾向がある。我々は,LLMが事実やルールの集合という形で,外部知識と整合性を持つように教える学習目標を導入する。
論文参考訳（メタデータ） (2024-04-19T12:23:57Z)
Towards Uncovering How Large Language Model Works: An Explainability Perspective [38.07611356855978]
大規模言語モデル(LLM)は言語タスクのブレークスルーをもたらしたが、その顕著な一般化と推論能力を実現する内部メカニズムは不透明のままである。本稿では,LLM機能の基礎となるメカニズムを,説明可能性のレンズを通して明らかにすることを目的とする。
論文参考訳（メタデータ） (2024-02-16T13:46:06Z)
Can LLMs Produce Faithful Explanations For Fact-checking? Towards Faithful Explainable Fact-Checking via Multi-Agent Debate [75.10515686215177]
大規模言語モデル(LLM)はテキスト生成に優れるが、事実チェックにおいて忠実な説明を生成する能力は依然として過小評価されている。多様な役割を持つエージェントとして複数のLSMを利用するマルチエージェント・デベート・リファインメント(MADR)フレームワークを提案する。 MADRは、最終的な説明が厳密な検証を行い、不誠実な要素の可能性を著しく低減し、提示された証拠と密接に一致させることを保証する。
論文参考訳（メタデータ） (2024-02-12T04:32:33Z)
FaithLM: Towards Faithful Explanations for Large Language Models [67.29893340289779]
大きな言語モデル(LLM)は、内部知識と推論能力を活用することで複雑なタスクに対処するのに熟練している。これらのモデルのブラックボックスの性質は、意思決定プロセスを説明するタスクを複雑にしている。自然言語 (NL) による LLM の決定を説明するために FaithLM を紹介した。
論文参考訳（メタデータ） (2024-02-07T09:09:14Z)
From Understanding to Utilization: A Survey on Explainability for Large Language Models [27.295767173801426]
この調査は、Large Language Models (LLMs) における説明可能性の向上を示唆している。主に、トレーニング済みの Transformer ベースの LLM に重点を置いています。説明可能性の活用を考える際に、モデル編集、制御生成、モデル拡張に集中するいくつかの魅力的な方法を検討する。
論文参考訳（メタデータ） (2024-01-23T16:09:53Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Large Language Models are In-Context Semantic Reasoners rather than Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文参考訳（メタデータ） (2023-05-24T07:33:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。