論文の概要: LLMs for Generating and Evaluating Counterfactuals: A Comprehensive Study
- arxiv url: http://arxiv.org/abs/2405.00722v2
- Date: Tue, 12 Nov 2024 11:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:02.833765
- Title: LLMs for Generating and Evaluating Counterfactuals: A Comprehensive Study
- Title(参考訳): 対物生成・評価のためのLCM--総合的研究
- Authors: Van Bach Nguyen, Paul Youssef, Christin Seifert, Jörg Schlötterer,
- Abstract要約: 大規模言語モデル (LLM) は, NLP タスクにおいて顕著な性能を示したが, 高品質な対実数 (CF) の生成における有効性はいまだ不明である。
我々は、いくつかの共通LCMを比較し、そのCFを評価し、本質的なメトリクスとこれらのCFがデータ拡張に与える影響を評価した。
その結果, LLMは流動性CFを生成するが, 誘導される変化を最小限に抑えるのに苦慮していることがわかった。
- 参考スコア(独自算出の注目度): 2.7731115923558143
- License:
- Abstract: As NLP models become more complex, understanding their decisions becomes more crucial. Counterfactuals (CFs), where minimal changes to inputs flip a model's prediction, offer a way to explain these models. While Large Language Models (LLMs) have shown remarkable performance in NLP tasks, their efficacy in generating high-quality CFs remains uncertain. This work fills this gap by investigating how well LLMs generate CFs for two NLU tasks. We conduct a comprehensive comparison of several common LLMs, and evaluate their CFs, assessing both intrinsic metrics, and the impact of these CFs on data augmentation. Moreover, we analyze differences between human and LLM-generated CFs, providing insights for future research directions. Our results show that LLMs generate fluent CFs, but struggle to keep the induced changes minimal. Generating CFs for Sentiment Analysis (SA) is less challenging than NLI where LLMs show weaknesses in generating CFs that flip the original label. This also reflects on the data augmentation performance, where we observe a large gap between augmenting with human and LLMs CFs. Furthermore, we evaluate LLMs' ability to assess CFs in a mislabelled data setting, and show that they have a strong bias towards agreeing with the provided labels. GPT4 is more robust against this bias and its scores correlate well with automatic metrics. Our findings reveal several limitations and point to potential future work directions.
- Abstract(参考訳): NLPモデルはより複雑になるにつれて、その決定を理解することがより重要になる。
インプットへの最小限の変更がモデルの予測を反転させる対物(CF)は、これらのモデルを説明する方法を提供する。
LLM(Large Language Models)はNLPタスクにおいて顕著な性能を示したが、高品質なCFの生成における有効性はまだ不明である。
この研究は、LLMが2つのNLUタスクに対していかにCFを生成するかを調べることで、このギャップを埋める。
我々は、複数の共通LCMの総合的な比較を行い、それらのCFを評価し、本質的なメトリクスとこれらのCFがデータ拡張に与える影響を評価する。
さらに,人間とLLMの生成するCFの差異を分析し,今後の研究の方向性について考察する。
その結果, LLMは流動性CFを生成するが, 誘導される変化を最小限に抑えるのに苦慮していることがわかった。
感性分析のためのCFの生成は、LLMが元のラベルを反転させるCFの生成の弱点を示すNLIよりも困難ではない。
これは、人間とLLMのCF間の大きなギャップを観察するデータ拡張性能にも反映している。
さらに,LLMのCF評価能力を評価するとともに,ラベルに適合する傾向が強いことを示す。
GPT4は、このバイアスに対してより堅牢であり、スコアは自動メトリクスとよく相関する。
我々の発見は、いくつかの限界と将来的な仕事の方向性を示す。
関連論文リスト
- Training Language Models to Critique With Multi-agent Feedback [102.42751835338233]
MultiCritique パイプラインはマルチエージェントフィードバックを利用することで LLM の批判能力を向上させる。
パイプラインは、単一のモデルではなく、複数のエージェントからの高品質な批評を集約する。
我々の微調整された7Bモデルは、他の高度な7B-13Bオープンソースモデルを大きく上回っている。
論文 参考訳(メタデータ) (2024-10-20T04:57:45Z) - FacLens: Transferable Probe for Foreseeing Non-Factuality in Large Language Models [34.985758097434946]
本研究は,非実効性予測(NFP)について検討し,LLMが質問に対する非実効性応答を生成するかどうかを予測することを目的とした。
本研究では,NFPタスクの隠れ表現を効果的に探索するFacLensという軽量なNFPモデルを提案する。
論文 参考訳(メタデータ) (2024-06-08T02:59:52Z) - Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Large Language Models are Inconsistent and Biased Evaluators [2.136983452580014]
我々は,Large Language Models (LLMs) が親しみの偏りを示し,評価の歪んだ分布を示すため,評価値の偏りを示すことを示した。
また, LLM は不整合性評価器であり, テキスト品質の人間の理解に欠かせない相違を誘発する「サンプル間合意」が低く, 感度が高いことがわかった。
論文 参考訳(メタデータ) (2024-05-02T20:42:28Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Interpreting Learned Feedback Patterns in Large Language Models [11.601799960959214]
我々は、微調整言語モデルのアクティベーションにおいて暗黙的にフィードバック信号を推定するプローブを訓練する。
これらの推定値を真のフィードバックと比較し、LFPの精度を微調整フィードバックと比較する。
我々は、GPT-4が記述し、LFPに関連するものとして分類する特徴に対して、正のフィードバック入力と相関する神経特徴を比較して、プローブを検証する。
論文 参考訳(メタデータ) (2023-10-12T09:36:03Z) - Faithful Explanations of Black-box NLP Models Using LLM-generated
Counterfactuals [67.64770842323966]
NLPシステムの予測に関する因果的説明は、安全性を確保し、信頼を確立するために不可欠である。
既存の手法は、しばしばモデル予測を効果的または効率的に説明できない。
本稿では, 対物近似(CF)の2つの手法を提案する。
論文 参考訳(メタデータ) (2023-10-01T07:31:04Z) - Do LLMs Understand User Preferences? Evaluating LLMs On User Rating
Prediction [15.793007223588672]
大規模言語モデル(LLM)は、ゼロショットまたは少数ショットの方法で新しいタスクに一般化する際、例外的な機能を示した。
我々は,2億5000万から540Bのパラメータを多種多様なサイズで検討し,その性能をゼロショット,少数ショット,微調整のシナリオで評価した。
論文 参考訳(メタデータ) (2023-05-10T21:43:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。