論文の概要: iFlip: Iterative Feedback-driven Counterfactual Example Refinement
- arxiv url: http://arxiv.org/abs/2601.01446v1
- Date: Sun, 04 Jan 2026 09:19:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.355923
- Title: iFlip: Iterative Feedback-driven Counterfactual Example Refinement
- Title(参考訳): iFlip: 反復的なフィードバック駆動型対実例リファインメント
- Authors: Yilong Wang, Qianli Wang, Nils Feldhus,
- Abstract要約: iFlipは、モデルの信頼性、特徴属性、自然言語を含む3つのタイプのフィードバックを活用する反復的な改善アプローチである。
以上の結果から,iFlipは5つの最先端ベースラインよりも平均57.8%高い妥当性を示した。
- 参考スコア(独自算出の注目度): 9.008435917190546
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Counterfactual examples are minimal edits to an input that alter a model's prediction. They are widely employed in explainable AI to probe model behavior and in natural language processing (NLP) to augment training data. However, generating valid counterfactuals with large language models (LLMs) remains challenging, as existing single-pass methods often fail to induce reliable label changes, neglecting LLMs' self-correction capabilities. To explore this untapped potential, we propose iFlip, an iterative refinement approach that leverages three types of feedback, including model confidence, feature attribution, and natural language. Our results show that iFlip achieves an average 57.8% higher validity than the five state-of-the-art baselines, as measured by the label flipping rate. The user study further corroborates that iFlip outperforms baselines in completeness, overall satisfaction, and feasibility. In addition, ablation studies demonstrate that three components are paramount for iFlip to generate valid counterfactuals: leveraging an appropriate number of iterations, pointing to highly attributed words, and early stopping. Finally, counterfactuals generated by iFlip enable effective counterfactual data augmentation, substantially improving model performance and robustness.
- Abstract(参考訳): 逆の例は、モデルの予測を変える入力への最小限の編集である。
モデルビヘイビアを探索するための説明可能なAIや、トレーニングデータの拡張のための自然言語処理(NLP)に広く使用されている。
しかし、LLMの自己補正機能を無視して、既存のシングルパスメソッドが信頼できるラベル変更を誘導できない場合が多いため、大きな言語モデル(LLM)で有効な偽物を生成することは依然として困難である。
この未解決の可能性を探るため,モデル信頼度,特徴帰属度,自然言語といった3種類のフィードバックを活用する反復的改良手法iFlipを提案する。
以上の結果から,iFlipは5つの最先端ベースラインよりも平均57.8%高い正当性を示した。
ユーザ調査では、iFlipがベースラインを完全性、全体的な満足度、実現可能性で上回っていることも確認されている。
さらに、アブレーション研究は、3つのコンポーネントがiFlipに最重要であり、適切な数の反復を活用、高い属性を持つ単語を指し示し、早期に停止するという、有効な偽物を生成することを実証している。
最後に、iFlipが生成したデファクトは効果的なデファクトデータ拡張を可能にし、モデル性能とロバスト性を大幅に改善する。
関連論文リスト
- Understanding Robustness of Model Editing in Code LLMs: An Empirical Study [1.5624785508022727]
本稿では,5つの最先端モデル編集手法の体系的研究を行う。
これらの手法を3つの主要なオープンソースコードLLM、CodeLlama、CodeQwen1.5、DeepSeek-Coderに適用する。
インスタント編集はモデル性能を常に劣化させ、構文的妥当性は86ポイントまで低下し、機能的正しさは最高のパフォーマンス設定でも45ポイントまで低下する。
論文 参考訳(メタデータ) (2025-11-05T04:58:13Z) - Towards Consistent Detection of Cognitive Distortions: LLM-Based Annotation and Dataset-Agnostic Evaluation [2.699704259580951]
テキストに基づく自動認知歪み検出は、主観的な性質のため難しい課題である。
一貫性のある信頼性のあるアノテータとしてLarge Language Models (LLM)の使用について検討する。
論文 参考訳(メタデータ) (2025-11-03T11:45:26Z) - HADSF: Aspect Aware Semantic Control for Explainable Recommendation [4.75127493865044]
大規模言語モデル(LLM)の最近の進歩は、推薦システムに対してより効果的な情報抽出を約束している。
本稿では,適応選択によるコンパクトなコーパスレベルのアスペクトボキャブラリを誘導し,構造化アスペクトオピニオン三重項のボキャブラリ誘導,明示的に制約された抽出を行う2段階アプローチを提案する。
1.5B-70Bパラメータにまたがる約300万のレビューに関する実験では、標準評価予測器に統合された場合、HADSFは予測エラーを一貫して減少させる。
論文 参考訳(メタデータ) (2025-10-30T20:49:33Z) - Autoformalizer with Tool Feedback [52.334957386319864]
自動形式化は、数学的問題を自然言語から形式的ステートメントに変換することによって、ATP(Automated Theorem Proving)のデータ不足に対処する。
既存のフォーミュラライザは、構文的妥当性とセマンティック一貫性を満たす有効なステートメントを一貫して生成することに苦慮している。
本稿では,ツールフィードバックを用いたオートフォーマライザ (ATF) を提案する。
論文 参考訳(メタデータ) (2025-10-08T10:25:12Z) - Noiser: Bounded Input Perturbations for Attributing Large Language Models [17.82404809465846]
本稿では,各入力埋め込みに有界雑音を課す摂動型FA法であるノイズ器を紹介する。
ノイズは、信頼度と応答性の両方の観点から、既存の勾配、注意に基づく、摂動に基づくFA法を一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2025-04-03T10:59:37Z) - Unconditional Truthfulness: Learning Unconditional Uncertainty of Large Language Models [104.55763564037831]
我々は、注意マップ、現在の生成ステップにおける確率、および以前に生成されたトークンから繰り返し計算された不確実性スコアを利用する回帰モデルを訓練する。
評価の結果,提案手法は選択的生成に極めて有効であり,教師なしアプローチと教師なしアプローチに比較して大幅な改善が得られた。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - A Mutually Reinforced Framework for Pretrained Sentence Embeddings [49.297766436632685]
InfoCSEは高品質な文埋め込みを学習するための新しいフレームワークである。
文表現モデル自体を利用して、以下の反復的な自己スーパービジョンプロセスを実現する。
言い換えれば、表現学習とデータアノテーションは相互に強化され、強い自己超越効果が導出される。
論文 参考訳(メタデータ) (2022-02-28T14:00:16Z) - Avoiding Inference Heuristics in Few-shot Prompt-based Finetuning [57.4036085386653]
文ペア分類タスクのプロンプトベースモデルでは,語彙重なりに基づく推論の一般的な落とし穴が依然として残っていることを示す。
そこで,プレトレーニングウェイトを保存する正規化を加えることは,この破壊的な微調整の傾向を緩和するのに有効であることを示す。
論文 参考訳(メタデータ) (2021-09-09T10:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。