論文の概要: LExT: Towards Evaluating Trustworthiness of Natural Language Explanations
- arxiv url: http://arxiv.org/abs/2504.06227v1
- Date: Tue, 08 Apr 2025 17:16:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-09 13:30:19.287497
- Title: LExT: Towards Evaluating Trustworthiness of Natural Language Explanations
- Title(参考訳): LExT:自然言語説明の信頼性評価に向けて
- Authors: Krithi Shailya, Shreya Rajpal, Gokul S Krishnan, Balaraman Ravindran,
- Abstract要約: 本稿では,自然言語の説明の信頼性を定量化し,妥当性と信条のバランスをとる枠組みを提案する。
パブリックな医療データセットを用いて、ドメインに依存しないフレームワークを医療領域に適用し、6つのモデルを評価する。
以上の結果から,信頼に値する説明を生み出す能力に有意な差異が認められた。
- 参考スコア(独自算出の注目度): 10.77745803401336
- License:
- Abstract: As Large Language Models (LLMs) become increasingly integrated into high-stakes domains, there have been several approaches proposed toward generating natural language explanations. These explanations are crucial for enhancing the interpretability of a model, especially in sensitive domains like healthcare, where transparency and reliability are key. In light of such explanations being generated by LLMs and its known concerns, there is a growing need for robust evaluation frameworks to assess model-generated explanations. Natural Language Generation metrics like BLEU and ROUGE capture syntactic and semantic accuracies but overlook other crucial aspects such as factual accuracy, consistency, and faithfulness. To address this gap, we propose a general framework for quantifying trustworthiness of natural language explanations, balancing Plausibility and Faithfulness, to derive a comprehensive Language Explanation Trustworthiness Score (LExT) (The code and set up to reproduce our experiments are publicly available at https://github.com/cerai-iitm/LExT). Applying our domain-agnostic framework to the healthcare domain using public medical datasets, we evaluate six models, including domain-specific and general-purpose models. Our findings demonstrate significant differences in their ability to generate trustworthy explanations. On comparing these explanations, we make interesting observations such as inconsistencies in Faithfulness demonstrated by general-purpose models and their tendency to outperform domain-specific fine-tuned models. This work further highlights the importance of using a tailored evaluation framework to assess natural language explanations in sensitive fields, providing a foundation for improving the trustworthiness and transparency of language models in healthcare and beyond.
- Abstract(参考訳): 大規模言語モデル (LLM) がハイテイクドメインにますます統合されるにつれて、自然言語の説明を生成するためのいくつかのアプローチが提案されている。
これらの説明は、特に透明性と信頼性が鍵となる医療のような繊細な領域において、モデルの解釈可能性を高めるために不可欠である。
LLMやその既知の懸念から、モデル生成の説明を評価するための堅牢な評価フレームワークの必要性が高まっている。
BLEUやROUGEのような自然言語生成のメトリクスは、構文的および意味的精度をキャプチャするが、事実的正確性、一貫性、忠実さといった他の重要な側面を見落としている。
このギャップに対処するため、我々は、自然言語説明の信頼性を定量化し、可塑性と忠実性のバランスをとるための一般的なフレームワークを提案し、包括的な言語説明信頼性スコア(LExT)を導出する(我々の実験を再現するためのコードとセットアップはhttps://github.com/cerai-iitm/LExT)。
パブリックな医療データセットを用いて、ドメインに依存しないフレームワークを医療領域に適用することにより、ドメイン固有モデルと汎用モデルを含む6つのモデルを評価する。
以上の結果から,信頼に値する説明を生み出す能力に有意な差異が認められた。
これらの説明を比較して、汎用モデルによって示される信仰の不整合や、ドメイン固有の微調整モデルを上回る傾向などの興味深い観察を行う。
この研究は、微妙な分野における自然言語の説明を評価するために、適切な評価フレームワークを使用することの重要性をさらに強調し、医療などにおける言語モデルの信頼性と透明性を向上させる基盤を提供する。
関連論文リスト
- Trustworthy Alignment of Retrieval-Augmented Large Language Models via Reinforcement Learning [84.94709351266557]
検索強化に関して,言語モデルの信頼性に焦点をあてる。
検索強化言語モデルには,文脈的知識とパラメトリック的知識の両方に応じて応答を供給できる本質的な能力があると考えられる。
言語モデルと人間の嗜好の整合性に着想を得て,検索強化言語モデルを外部証拠にのみ依存する状況に整合させるための第一歩を踏み出した。
論文 参考訳(メタデータ) (2024-10-22T09:25:21Z) - Generative causal testing to bridge data-driven models and scientific theories in language neuroscience [82.995061475971]
脳における言語選択性の簡潔な説明を生成するためのフレームワークである生成因果テスト(GCT)を提案する。
GCTは機能的選択性に類似した脳領域の細粒度の違いを識別できることを示す。
論文 参考訳(メタデータ) (2024-10-01T15:57:48Z) - Finetuning Language Models to Emit Linguistic Expressions of Uncertainty [5.591074369497796]
大規模言語モデル(LLM)は情報検索や意思決定のタスクにますます採用されている。
LLMは現実世界の事実と矛盾する情報を生成する傾向があり、その説得的なスタイルはこれらの不正確さを自信と説得力に見せかける。
本研究では,不確実性の言語表現を生成するモデルを開発する手法として,不確実性拡張予測の教師付き微調整について検討する。
論文 参考訳(メタデータ) (2024-09-18T17:52:53Z) - TRACE: TRansformer-based Attribution using Contrastive Embeddings in LLMs [50.259001311894295]
TRACE と呼ばれるコントラスト埋め込みを用いた新しいTRansformer-based Attribution フレームワークを提案する。
TRACEは情報源の属性を精度良く改善し,大規模言語モデルの信頼性と信頼性を高める貴重なツールであることを示す。
論文 参考訳(メタデータ) (2024-07-06T07:19:30Z) - Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。
広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。
本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文 参考訳(メタデータ) (2024-04-25T10:03:14Z) - Commonsense Knowledge Transfer for Pre-trained Language Models [83.01121484432801]
ニューラルコモンセンス知識モデルに格納されたコモンセンス知識を汎用的な事前学習言語モデルに転送するフレームワークであるコモンセンス知識伝達を導入する。
まず、一般的なテキストを利用して、ニューラルコモンセンス知識モデルからコモンセンス知識を抽出するクエリを形成する。
次に、コモンセンスマスクの埋め込みとコモンセンスの関係予測という2つの自己教師対象で言語モデルを洗練する。
論文 参考訳(メタデータ) (2023-06-04T15:44:51Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Natural Language Decompositions of Implicit Content Enable Better Text Representations [52.992875653864076]
本稿では,暗黙的に伝達されたコンテンツを明示的に考慮したテキスト分析手法を提案する。
我々は大きな言語モデルを用いて、観察されたテキストと推論的に関係する命題の集合を生成する。
本研究は,NLPにおいて,文字のみではなく,観察された言語の背景にある意味をモデル化することが重要であることを示唆する。
論文 参考訳(メタデータ) (2023-05-23T23:45:20Z) - Explaining Language Models' Predictions with High-Impact Concepts [11.47612457613113]
概念ベースの解釈可能性手法をNLPに拡張するための完全なフレームワークを提案する。
出力予測が大幅に変化する特徴を最適化する。
本手法は, ベースラインと比較して, 予測的影響, ユーザビリティ, 忠実度に関する優れた結果が得られる。
論文 参考訳(メタデータ) (2023-05-03T14:48:27Z) - Benchmarking Faithfulness: Towards Accurate Natural Language
Explanations in Vision-Language Tasks [0.0]
自然言語の説明(NLE)は、モデルの意思決定を容易に理解可能な方法でコミュニケーション可能にすることを約束する。
現在のモデルは説得力のある説明をうまく生成するが、NLEが実際にモデルの推論過程をいかにうまく表現しているかは未解決の問題である。
帰属相似性(Atribution-Similarity)、NLE-Sufficiency(NLE-Sufficiency)、NLE-Comprehensiveness(NLE-Comprehensiveness)の3つの忠実度指標を提案する。
論文 参考訳(メタデータ) (2023-04-03T08:24:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。