論文の概要: Is External Information Useful for Stance Detection with LLMs?
- arxiv url: http://arxiv.org/abs/2507.01543v1
- Date: Wed, 02 Jul 2025 09:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.139828
- Title: Is External Information Useful for Stance Detection with LLMs?
- Title(参考訳): LLMを用いたスタンス検出に外部情報は有用か?
- Authors: Quang Minh Nguyen, Taegyoon Kim,
- Abstract要約: 以前の研究は、ウィキペディアからの抜粋など外部情報の使用が姿勢検出性能を向上させることを示唆していた。
我々はWikipediaとWeb検索の外部情報がどのように姿勢検出に影響を及ぼすかを体系的に評価する。
このような情報がほとんどの場合性能を低下させ、マクロF1スコアは27.9%まで低下する。
- 参考スコア(独自算出の注目度): 1.0610707915233728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the stance detection task, a text is classified as either favorable, opposing, or neutral towards a target. Prior work suggests that the use of external information, e.g., excerpts from Wikipedia, improves stance detection performance. However, whether or not such information can benefit large language models (LLMs) remains an unanswered question, despite their wide adoption in many reasoning tasks. In this study, we conduct a systematic evaluation on how Wikipedia and web search external information can affect stance detection across eight LLMs and in three datasets with 12 targets. Surprisingly, we find that such information degrades performance in most cases, with macro F1 scores dropping by up to 27.9\%. We explain this through experiments showing LLMs' tendency to align their predictions with the stance and sentiment of the provided information rather than the ground truth stance of the given text. We also find that performance degradation persists with chain-of-thought prompting, while fine-tuning mitigates but does not fully eliminate it. Our findings, in contrast to previous literature on BERT-based systems which suggests that external information enhances performance, highlight the risks of information biases in LLM-based stance classifiers. Code is available at https://github.com/ngqm/acl2025-stance-detection.
- Abstract(参考訳): 姿勢検出タスクでは、テキストは、対象に向かって好意的、反対的、中立的のいずれかに分類される。
以前の研究は、ウィキペディアからの抜粋など外部情報の使用が姿勢検出性能を向上させることを示唆していた。
しかし、そのような情報が大きな言語モデル(LLM)の恩恵を受けるかどうかは、多くの推論タスクで広く採用されているにもかかわらず、未解決の問題である。
本研究では,Wikipedia と Web 検索の外部情報が 8 個の LLM および 12 個のターゲットを持つ 3 つのデータセットにおける姿勢検出にどう影響するかを,系統的に評価する。
驚いたことに、そのような情報がほとんどのケースでパフォーマンスを低下させ、マクロF1スコアは27.9\%まで低下する。
本稿は, LLMの予測を, 与えられたテキストの真理的なスタンスではなく, 提供された情報のスタンスや感情と整合させる傾向を示す実験を通して説明する。
また、性能劣化はチェーン・オブ・シント・プロンプトによって継続するが、微調整は緩和するが、完全には排除しない。
LLMを用いた姿勢分類器において,外部情報が性能を高めることを示唆するBERTベースのシステムに関する以前の文献とは対照的に,情報バイアスのリスクが強調される。
コードはhttps://github.com/ngqm/acl2025-stance-detectionで公開されている。
関連論文リスト
- Small Encoders Can Rival Large Decoders in Detecting Groundedness [45.13986921082049]
大規模言語モデル(LLM)を外部コンテキストで拡張することで、自然言語処理(NLP)タスクのパフォーマンスが大幅に向上する。
本研究は,LLMによるコストのかかる回答生成の前に,与えられたクエリがコンテキストで提供されるドキュメントにグラウンドドされているかを検出することに焦点を当てる。
我々は,RoBERTa や NomicBERT などの軽量なタスク固有エンコーダモデルにおいて,キュレートされたデータセットを微調整することで,最先端の LLM に匹敵する精度が得られることを示す。
論文 参考訳(メタデータ) (2025-06-26T14:09:41Z) - Verifying the Verifiers: Unveiling Pitfalls and Potentials in Fact Verifiers [59.168391398830515]
我々は,14のファクトチェックベンチマークのサンプルを用いて,12の事前学習LDMと1つの特殊ファクト検証器を評価した。
データセットにおけるアノテーションエラーとあいまいさに対処することの重要性を強調します。
最上位のパフォーマンスを実現するために、前作でしばしば見落とされがちな、数ショットのインコンテキストの例を持つフロンティアLSM。
論文 参考訳(メタデータ) (2025-06-16T10:32:10Z) - How does Misinformation Affect Large Language Model Behaviors and Preferences? [37.06385727015972]
大きな言語モデル(LLM)は、知識集約的なタスクにおいて顕著な能力を示している。
我々は,LLMの行動と誤情報に対する知識嗜好を評価するための,現在最大かつ最も包括的なベンチマークであるMisBenchを紹介する。
実証的な結果から、LLMは誤報を識別する能力に匹敵する能力を示すが、知識の衝突やスタイルのバリエーションの影響を受けやすいままであることが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T17:57:44Z) - Unraveling Misinformation Propagation in LLM Reasoning [19.89817963822589]
大規模言語モデルの推論過程において,誤情報がどのように伝播するかを示す。
推論過程の早い段階で事実訂正を適用することは、誤情報伝達を効果的に減少させる。
我々の研究は誤情報伝達を緩和するための実践的なアプローチを提供する。
論文 参考訳(メタデータ) (2025-05-24T06:45:45Z) - Defending against Indirect Prompt Injection by Instruction Detection [81.98614607987793]
本稿では, 外部データを入力として取り込んで, 前方および後方の伝搬中におけるLCMの動作状態を利用して, 潜在的なIPI攻撃を検出する手法を提案する。
提案手法は,ドメイン内設定で99.60%,ドメイン外設定で96.90%,攻撃成功率でBIPIAベンチマークで0.12%に低下する。
論文 参考訳(メタデータ) (2025-05-08T13:04:45Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - RAEmoLLM: Retrieval Augmented LLMs for Cross-Domain Misinformation Detection Using In-Context Learning Based on Emotional Information [36.059869205457815]
クロスドメイン誤情報検出の方法は、努力とリソース集約的な微調整と複雑なモデル構造に依存している。
RAEmoLLMは、感情情報に基づくテキスト内学習を用いたクロスドメイン誤情報検出のための、最初の検索拡張(RAG)LLMフレームワークである。
RAEmoLLMは、3つのデータセットの他の数ショットメソッドと比較して大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-16T22:49:11Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - Enhancing Uncertainty-Based Hallucination Detection with Stronger Focus [99.33091772494751]
大規模言語モデル(LLM)は、様々な分野にわたる印象的なパフォーマンスで大きな人気を集めている。
LLMは、ユーザの期待を満たさない非現実的あるいは非感覚的なアウトプットを幻覚させる傾向がある。
LLMにおける幻覚を検出するための新しい基準のない不確実性に基づく手法を提案する。
論文 参考訳(メタデータ) (2023-11-22T08:39:17Z) - FELM: Benchmarking Factuality Evaluation of Large Language Models [40.78878196872095]
本稿では,Felmと呼ばれる大規模言語モデルのファクチュアリティ評価のためのベンチマークを紹介する。
我々は,大規模言語モデルから生成された応答を収集し,微粒な方法で事実ラベルを注釈付けする。
その結果,検索は事実性評価に役立つが,現在のLCMは事実の誤りを忠実に検出するには不十分であることがわかった。
論文 参考訳(メタデータ) (2023-10-01T17:37:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。