Fugu-MT 論文翻訳(概要): FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

論文の概要: FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation

arxiv url: http://arxiv.org/abs/2501.00777v1
Date: Wed, 01 Jan 2025 09:00:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:31.991755
Title: FitCF: A Framework for Automatic Feature Importance-guided Counterfactual Example Generation
Title（参考訳）: FitCF: 自動特徴重要誘導対実例生成のためのフレームワーク
Authors: Qianli Wang, Nils Feldhus, Simon Ostermann, Luis Felipe Villa-Arenas, Sebastian Möller, Vera Schmitt,
Abstract要約: 我々はZeroCFを紹介した。ZeroCFは、特徴帰属法から派生した重要な単語を活用して、反実例を生成するための忠実なアプローチである。第2に,新たなフレームワークであるFitCFを提案する。このフレームワークは,上述の反事実をラベルフリップ検証によって検証し,実演として挿入する。 We showed the effect of LIME and Integrated Gradients as backbone attribution method for FitCF and found the number of demonstrations have be largest effect on performance。
参考スコア（独自算出の注目度）: 11.238548725286122
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Counterfactual examples are widely used in natural language processing (NLP) as valuable data to improve models, and in explainable artificial intelligence (XAI) to understand model behavior. The automated generation of counterfactual examples remains a challenging task even for large language models (LLMs), despite their impressive performance on many tasks. In this paper, we first introduce ZeroCF, a faithful approach for leveraging important words derived from feature attribution methods to generate counterfactual examples in a zero-shot setting. Second, we present a new framework, FitCF, which further verifies aforementioned counterfactuals by label flip verification and then inserts them as demonstrations for few-shot prompting, outperforming two state-of-the-art baselines. Through ablation studies, we identify the importance of each of FitCF's core components in improving the quality of counterfactuals, as assessed through flip rate, perplexity, and similarity measures. Furthermore, we show the effectiveness of LIME and Integrated Gradients as backbone attribution methods for FitCF and find that the number of demonstrations has the largest effect on performance. Finally, we reveal a strong correlation between the faithfulness of feature attribution scores and the quality of generated counterfactuals.
Abstract（参考訳）: 対実例は、モデルを改善する貴重なデータとして自然言語処理(NLP)や、モデル動作を理解するための説明可能な人工知能(XAI)で広く使われている。大規模な言語モデル(LLM)においても,多くのタスクにおいて優れたパフォーマンスを保っているにも関わらず,反実例の自動生成は依然として困難な課題である。本稿では,ZeroCFを提案する。ZeroCFは,特徴帰属法から派生した重要な単語を忠実に活用し,ゼロショット設定で実例を生成する手法である。第2に,ラベルフリップ検証によって上記の反ファクトをさらに検証し,数発のプロンプトのデモとして挿入し,最先端の2つのベースラインを上回った新しいフレームワークFitCFを提案する。アブレーション研究を通じて、フリップレート、パープレキシティ、類似度測定によって評価された反ファクトの質向上における各FitCFのコアコンポーネントの重要性を明らかにする。さらに,FitCFのバックボーン属性法としてLIMEとIntegrated Gradientsの有効性を示す。最後に,特徴属性スコアの忠実度と生成した反事実の質との間に強い相関関係を明らかにする。

関連論文リスト

Forgetting: A New Mechanism Towards Better Large Language Model Fine-tuning [53.398270878295754]
Supervised Fine-tuning (SFT) は、事前訓練された大規模言語モデル (LLM) において重要な役割を果たす。各コーパス内のトークンを、モデルパフォーマンスを改善するのに有用かどうかに基づいて、正と負の2つの部分に分類することを提案する。我々は、よく確立されたベンチマークで実験を行い、この忘れるメカニズムが全体のモデル性能を向上するだけでなく、より多様なモデル応答を促進することを発見した。
論文参考訳（メタデータ） (2025-08-06T11:22:23Z)
Enhancing Training Data Attribution with Representational Optimization [57.61977909113113]
トレーニングデータ属性法は、トレーニングデータがモデルの予測にどのように影響するかを測定することを目的としている。本稿では,タスク固有表現とモデル整合表現をTDAで明示的に学習することで,このギャップを埋める表現ベースアプローチであるAirRepを提案する。 AirRepは、属性品質に合わせて調整されたトレーニング可能なエンコーダと、グループワイドの影響を正確に見積もるアテンションベースのプール機構の2つの重要なイノベーションを紹介している。
論文参考訳（メタデータ） (2025-05-24T05:17:53Z)
Leveraging LLM Inconsistency to Boost Pass@k Performance [3.797421474324735]
大規模言語モデル(LLM)は、多くのドメインにおいて印象的な能力を発揮するが、マイナーな入力変更に対する不整合性を示す。本稿では,Pass@kの性能向上にモデルの不整合を利用した新しい手法を提案する。具体的には、与えられたタスクのk変種を生成し、各タスクに対して1つの候補解を提出する「変数」エージェントを提案する。
論文参考訳（メタデータ） (2025-05-19T10:22:04Z)
FANformer: Improving Large Language Models Through Effective Periodicity Modeling [30.84203256282429]
本稿ではFANformerを紹介し,Fourier Analysis Network(FAN)をアテンション機構に統合し,効率的な周期性モデリングを実現する。 FANformerはモデルサイズのスケールアップやトークンのトレーニングにおいて,Transformerよりも一貫してパフォーマンスが向上している。 FANformerの有効性をさらに検証するため、FANformer-1Bを1兆個のトークンで事前訓練する。
論文参考訳（メタデータ） (2025-02-28T18:52:24Z)
FELLE: Autoregressive Speech Synthesis with Token-Wise Coarse-to-Fine Flow Matching [51.32059240975148]
FELLEは、言語モデリングとトークンワイドフローマッチングを統合する自動回帰モデルである。各連続値トークンに対して、FELLEは、前ステップからの情報を組み込んで、フローマッチングにおける一般的な事前分布を変更する。 FELLEは、言語モデルの出力に基づいて階層的に連続値のトークンを生成する。
論文参考訳（メタデータ） (2025-02-16T13:54:32Z)
USDRL: Unified Skeleton-Based Dense Representation Learning with Multi-Grained Feature Decorrelation [24.90512145836643]
本稿では,特徴デコレーションに基づく統一骨格に基づくDense Representation Learningフレームワークを提案する。我々のアプローチは現在のSOTA(State-of-the-art)アプローチよりも大幅に優れています。
論文参考訳（メタデータ） (2024-12-12T12:20:27Z)
Zero-Shot Embeddings Inform Learning and Forgetting with Vision-Language Encoders [6.7181844004432385]
IMM(Inter-Intra Modal Measure)は、微調整によるパフォーマンス変化の強力な予測器として機能する。 IIMMスコアの高いタスクの微調整はドメイン内のパフォーマンス向上をもたらすが、ドメイン外のパフォーマンス低下も引き起こす。ターゲットデータの1つのフォワードパスだけで、実践者は、この重要な洞察を利用して、モデルが微調整後の改善を期待できる程度を評価することができる。
論文参考訳（メタデータ） (2024-07-22T15:35:09Z)
DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。 ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文参考訳（メタデータ） (2024-05-22T15:52:52Z)
Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文参考訳（メタデータ） (2024-04-23T11:45:32Z)
CATfOOD: Counterfactual Augmented Training for Improving Out-of-Domain Performance and Calibration [59.48235003469116]
データの増大はOOD性能を継続的に向上させることを示す。また, CF拡張モデルのキャリブレーションが容易な場合, 重要度を割り当てる場合, エントロピーがはるかに低いことを示す。
論文参考訳（メタデータ） (2023-09-14T16:16:40Z)
Post Hoc Explanations of Language Models Can Improve Language Models [43.2109029463221]
AMPLIFY(Post Hoc Explanations)を用いたインコンテキスト学習の活用によるモデル性能向上のための新しいフレームワークを提案する。我々は,各入力特徴がモデル予測に与える影響を抽出し,帰属スコア(説明)を出力するポストホック説明手法を活用する。 AMPLIFYは,幅広いタスクに対して約10～25%の精度向上を実現している。
論文参考訳（メタデータ） (2023-05-19T04:46:04Z)
A Generative Framework for Low-Cost Result Validation of Machine Learning-as-a-Service Inference [4.478182379059458]
FidesはML-as-a-Service(ML)推論のリアルタイム整合性検証のための新しいフレームワークである。 Fidesは、統計的分析とばらつき測定を使用して、サービスモデルが攻撃を受けている場合、高い確率で識別するクライアント側攻撃検出モデルを備えている。攻撃検出と再分類モデルの訓練のための生成的逆ネットワークフレームワークを考案した。
論文参考訳（メタデータ） (2023-03-31T19:17:30Z)
Discover, Explanation, Improvement: An Automatic Slice Detection Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文参考訳（メタデータ） (2022-11-08T19:00:00Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Learning What Makes a Difference from Counterfactual Examples and Gradient Supervision [57.14468881854616]
ニューラルネットワークの一般化能力を改善するための補助的学習目標を提案する。我々は、異なるラベルを持つ最小差の例のペア、すなわち反ファクトまたはコントラストの例を使用し、タスクの根底にある因果構造を示す信号を与える。このテクニックで訓練されたモデルは、配布外テストセットのパフォーマンスを向上させる。
論文参考訳（メタデータ） (2020-04-20T02:47:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。