論文の概要: X-Troll: eXplainable Detection of State-Sponsored Information Operations Agents
- arxiv url: http://arxiv.org/abs/2508.16021v1
- Date: Fri, 22 Aug 2025 00:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-25 16:42:36.214418
- Title: X-Troll: eXplainable Detection of State-Sponsored Information Operations Agents
- Title(参考訳): X-Troll: eXplainable Detection of State-Sponsored Information Operations Agents
- Authors: Lin Tian, Xiuzhen Zhang, Maria Myung-Hee Kim, Jennifer Biggs, Marian-Andrei Rizoiu,
- Abstract要約: 国家主催のトロルは、オンラインの言論の整合性を脅かしている。
大規模言語モデル(LLM)は,自然言語処理(NLP)タスクにおいて高い性能を発揮する。
X-Trollは、説明可能なアダプタベースのLLMと専門家由来の言語知識を統合することでギャップを埋める新しいフレームワークである。
- 参考スコア(独自算出の注目度): 5.8926836501547735
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-sponsored trolls, malicious actors who deploy sophisticated linguistic manipulation in coordinated information campaigns, posing threats to online discourse integrity. While Large Language Models (LLMs) achieve strong performance on general natural language processing (NLP) tasks, they struggle with subtle propaganda detection and operate as ``black boxes'', providing no interpretable insights into manipulation strategies. This paper introduces X-Troll, a novel framework that bridges this gap by integrating explainable adapter-based LLMs with expert-derived linguistic knowledge to detect state-sponsored trolls and provide human-readable explanations for its decisions. X-Troll incorporates appraisal theory and propaganda analysis through specialized LoRA adapters, using dynamic gating to capture campaign-specific discourse patterns in coordinated information operations. Experiments on real-world data demonstrate that our linguistically-informed approach shows strong performance compared with both general LLM baselines and existing troll detection models in accuracy while providing enhanced transparency through expert-grounded explanations that reveal the specific linguistic strategies used by state-sponsored actors. X-Troll source code is available at: https://github.com/ltian678/xtroll_source/.
- Abstract(参考訳): 国家が支援するトロルは、コーディネートされた情報キャンペーンで洗練された言語操作を展開し、オンラインの言論の整合性を脅かす悪質な行為である。
大きな言語モデル(LLM)は、一般的な自然言語処理(NLP)タスクにおいて強力なパフォーマンスを達成する一方で、微妙なプロパガンダ検出に苦労し、「ブラックボックス」として機能し、操作戦略に関する解釈可能な洞察を与えない。
本稿では,このギャップを埋める新しいフレームワークであるX-Trollについて紹介する。
X-Trollは、特殊なLoRAアダプタによる評価理論とプロパガンダ分析を取り入れ、動的ゲーティングを用いて、協調情報操作におけるキャンペーン固有の談話パターンをキャプチャする。
実世界のデータを用いた実験により,我々の言語学的インフォームドアプローチは,一般のLLMベースラインと既存のトロル検出モデルの両方と比較して高い性能を示すとともに,州が支援するアクターが使用する特定の言語戦略を明らかにする専門家による説明を通じて透明性を高めた。
X-Trollのソースコードは、https://github.com/ltian678/xtroll_source/で入手できる。
関連論文リスト
- Dual Information Speech Language Models for Emotional Conversations [48.094826104102204]
音声を入力として使用する言語モデル(SLM)が,将来性のあるソリューションとして浮上している。
我々は、絡み合った情報と不適切なトレーニング戦略を重要な課題として挙げる。
提案手法はパラ言語情報や言語情報を解き、SLMが構造化表現を通して音声を解釈することを可能にする。
論文 参考訳(メタデータ) (2025-08-11T15:33:44Z) - From Fragments to Facts: A Curriculum-Driven DPO Approach for Generating Hindi News Veracity Explanations [27.17408568972408]
急激な誤報の時代には、特にヒンディー語のような表現不足の言語では、信頼できるニュース説明を生成することが不可欠である。
本稿では,DPO(Direct Preference Optimization)とカリキュラム学習を統合した新しいフレームワークを提案する。
LLM (Mistral, Llama, Gemma) と PLM (mBART, mT5) による実験は、コヒーレントで文脈的に関係のある説明を生成する上で、フレームワークの有効性を確認している。
論文 参考訳(メタデータ) (2025-07-07T16:34:28Z) - DeSTA2: Developing Instruction-Following Speech Language Model Without Speech Instruction-Tuning Data [84.01401439030265]
最近のエンドツーエンド言語モデル(SLM)は、大規模言語モデル(LLM)の機能に拡張されている。
音声とテキストのペアデータを生成するための,シンプルで効果的な自動処理手法を提案する。
本モデルでは,音声教育データを必要としない音声関連タスクの汎用性を示す。
論文 参考訳(メタデータ) (2024-09-30T07:01:21Z) - Dynamic Analysis and Adaptive Discriminator for Fake News Detection [59.41431561403343]
偽ニュース検出のための動的解析・適応識別器(DAAD)手法を提案する。
知識に基づく手法では,モンテカルロ木探索アルゴリズムを導入し,大規模言語モデルの自己表現能力を活用する。
意味に基づく手法では、偽ニュース生成のメカニズムを明らかにするために、典型的偽造パターンを4つ定義する。
論文 参考訳(メタデータ) (2024-08-20T14:13:54Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - A Causal Explainable Guardrails for Large Language Models [29.441292837667415]
大規模言語モデル(LLM)は自然言語処理において顕著な性能を示すが、その出力は望ましくない属性やバイアスを示すことができる。
LLMGuardrailは、因果解析と逆学習を組み込んだ新しいフレームワークで、偏りのない操舵表現を得る。
論文 参考訳(メタデータ) (2024-05-07T09:55:05Z) - LLMCheckup: Conversational Examination of Large Language Models via Interpretability Tools and Self-Explanations [26.340786701393768]
対話の形で説明を提供する解釈可能性ツールは,ユーザの理解を高める上で有効であることを示す。
しかしながら、対話ベースの説明のための現在のソリューションは、しばしば外部ツールやモジュールを必要とし、設計されていないタスクに簡単に転送できない。
ユーザがその振る舞いについて,最先端の大規模言語モデル(LLM)とチャットできる,アクセスしやすいツールを提案する。
論文 参考訳(メタデータ) (2024-01-23T09:11:07Z) - Let Models Speak Ciphers: Multiagent Debate through Embeddings [84.20336971784495]
この問題を解決するためにCIPHER(Communicative Inter-Model Protocol Through Embedding Representation)を導入する。
自然言語から逸脱することで、CIPHERはモデルの重みを変更することなく、より広い範囲の情報を符号化する利点を提供する。
このことは、LLM間の通信における代替の"言語"としての埋め込みの優越性と堅牢性を示している。
論文 参考訳(メタデータ) (2023-10-10T03:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。