論文の概要: Bot Meets Shortcut: How Can LLMs Aid in Handling Unknown Invariance OOD Scenarios?
- arxiv url: http://arxiv.org/abs/2511.08455v3
- Date: Fri, 14 Nov 2025 04:21:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:02.036858
- Title: Bot Meets Shortcut: How Can LLMs Aid in Handling Unknown Invariance OOD Scenarios?
- Title(参考訳): ボットがショートカット: LLMが未知の不変OODシナリオを扱うにはどうすればいいのか?
- Authors: Shiyan Zheng, Herun Wan, Minnan Luo, Junhang Huang,
- Abstract要約: 本研究は,テクストの特徴に基づく潜在的ショートカットの影響について検討する。
本稿では,大規模言語モデルに基づく緩和戦略を提案する。
我々の戦略は、ショートカットシナリオ下での平均相対的なパフォーマンス改善を56%達成します。
- 参考スコア(独自算出の注目度): 23.468770302753793
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While existing social bot detectors perform well on benchmarks, their robustness across diverse real-world scenarios remains limited due to unclear ground truth and varied misleading cues. In particular, the impact of shortcut learning, where models rely on spurious correlations instead of capturing causal task-relevant features, has received limited attention. To address this gap, we conduct an in-depth study to assess how detectors are influenced by potential shortcuts based on textual features, which are most susceptible to manipulation by social bots. We design a series of shortcut scenarios by constructing spurious associations between user labels and superficial textual cues to evaluate model robustness. Results show that shifts in irrelevant feature distributions significantly degrade social bot detector performance, with an average relative accuracy drop of 32\% in the baseline models. To tackle this challenge, we propose mitigation strategies based on large language models, leveraging counterfactual data augmentation. These methods mitigate the problem from data and model perspectives across three levels, including data distribution at both the individual user text and overall dataset levels, as well as the model's ability to extract causal information. Our strategies achieve an average relative performance improvement of 56\% under shortcut scenarios.
- Abstract(参考訳): 既存のソーシャルボット検出器はベンチマークでよく機能するが、様々な現実世界のシナリオにまたがるロバスト性は、まだ不明な真実とさまざまな誤解を招く手がかりのために制限されている。
特に、因果的タスク関連の特徴を捉える代わりに、モデルが突発的相関に依存するショートカット学習の影響は、あまり注目されていない。
このギャップに対処するため、我々は、社会的ボットによる操作に最も影響を受けやすいテキストの特徴に基づいて、検出者が潜在的ショートカットにどのように影響するかを評価するために、詳細な研究を行う。
ユーザラベルと表面テクスチュアキューの急激な関連性を構築し,モデルロバスト性を評価することで,一連のショートカットシナリオを設計する。
その結果,無関係な特徴分布の変化は社会的ボット検出性能を著しく低下させ,ベースラインモデルの平均相対精度は32\%低下した。
この課題に対処するため,大規模言語モデルに基づく緩和戦略を提案する。
これらの手法は、個々のユーザテキストとデータセットのレベルでのデータ分散を含む3つのレベルにわたるデータとモデルの観点からの問題を軽減するとともに、因果情報を抽出するモデルの能力も軽減する。
我々の戦略は、ショートカットシナリオ下での平均相対的なパフォーマンス改善率56\%を達成する。
関連論文リスト
- Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - DISCO: DISCovering Overfittings as Causal Rules for Text Classification Models [6.369258625916601]
ポストホックの解釈可能性法は、モデルの意思決定プロセスを完全に捉えるのに失敗する。
本稿では,グローバルなルールベースの説明を見つけるための新しい手法であるdisCOを紹介する。
DISCOは対話的な説明をサポートし、人間の検査者がルールベースの出力で突発的な原因を区別できるようにする。
論文 参考訳(メタデータ) (2024-11-07T12:12:44Z) - Is Difficulty Calibration All We Need? Towards More Practical Membership Inference Attacks [16.064233621959538]
我々は,textbfRe-levertextbfA を直接 textbfRe-levertextbfA を用いて mtextbfItigate the error in textbfDifficulty calibration を提案する。
論文 参考訳(メタデータ) (2024-08-31T11:59:42Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Identifying and Mitigating Spurious Correlations for Improving
Robustness in NLP Models [19.21465581259624]
多くの問題は、刺激的な相関を利用したモデルや、トレーニングデータとタスクラベルの間のショートカットに起因する可能性がある。
本論文では,NLPモデルにおけるこのような素因的相関を大規模に同定することを目的とする。
提案手法は,スケーラブルな「ショートカット」の集合を効果的かつ効率的に同定し,複数のアプリケーションにおいてより堅牢なモデルに導かれることを示す。
論文 参考訳(メタデータ) (2021-10-14T21:40:03Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z) - Accurate and Robust Feature Importance Estimation under Distribution
Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。
忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2020-09-30T05:29:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。