論文の概要: Evaluating Large Language Models for Detecting Antisemitism
- arxiv url: http://arxiv.org/abs/2509.18293v1
- Date: Mon, 22 Sep 2025 18:23:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.518768
- Title: Evaluating Large Language Models for Detecting Antisemitism
- Title(参考訳): 反セミティズム検出のための大規模言語モデルの評価
- Authors: Jay Patel, Hrudayangam Mehta, Jeremy Blackburn,
- Abstract要約: 我々は,8つのオープンソース機械学習モデルのアンチセミティックコンテンツ検出能力を評価した。
我々は、コンテキスト内ポリシーをうまく扱うために、新しいCoTライクなプロンプトである Guided-CoT を設計する。
特に、Llama 3.1 70Bは微調整のGPT-3.5より優れている。
- 参考スコア(独自算出の注目度): 4.368443030353556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting hateful content is a challenging and important problem. Automated tools, like machine-learning models, can help, but they require continuous training to adapt to the ever-changing landscape of social media. In this work, we evaluate eight open-source LLMs' capability to detect antisemitic content, specifically leveraging in-context definition as a policy guideline. We explore various prompting techniques and design a new CoT-like prompt, Guided-CoT. Guided-CoT handles the in-context policy well, increasing performance across all evaluated models, regardless of decoding configuration, model sizes, or reasoning capability. Notably, Llama 3.1 70B outperforms fine-tuned GPT-3.5. Additionally, we examine LLM errors and introduce metrics to quantify semantic divergence in model-generated rationales, revealing notable differences and paradoxical behaviors among LLMs. Our experiments highlight the differences observed across LLMs' utility, explainability, and reliability.
- Abstract(参考訳): 憎しみのあるコンテンツを見つけることは困難で重要な問題だ。
機械学習モデルのような自動化ツールは役に立つが、ソーシャルメディアの絶え間なく変化する状況に適応するためには、継続的なトレーニングが必要である。
本研究では,テキスト内定義をポリシーガイドラインとして活用し,アンチセミティックなコンテンツを検出する8つのオープンソースLCMの能力を評価する。
我々は,様々なプロンプト手法を探求し,新しいCoT様プロンプトである Guided-CoT を設計する。
Guided-CoTは、コンテクスト内ポリシーをうまく処理し、デコード構成、モデルサイズ、推論能力に関係なく、すべての評価されたモデルでパフォーマンスを向上する。
特に、Llama 3.1 70Bは微調整のGPT-3.5より優れている。
さらに, LLMの誤りを検証し, LLM間の顕著な相違とパラドックス的挙動を明らかにすることによって, モデル生成論理における意味的相違を定量化するための指標を導入する。
実験では, LLMの実用性, 説明可能性, 信頼性の相違について検討した。
関連論文リスト
- A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - LLMs Are In-Context Bandit Reinforcement Learners [30.192422586838997]
大規模言語モデル(LLMs)は、モデルコンテキストに注釈付きサンプルを追加することに依存する教師付き学習技術であるICL(In-context Learning)で優れている。
そこで本研究では、教師付きデータではなく、外部報酬からオンラインのコンテキスト内学習を行うICRL(In-context reinforcement Learning)について検討する。
論文 参考訳(メタデータ) (2024-10-07T17:45:00Z) - Investigating Privacy Bias in Training Data of Language Models [1.3167450470598043]
プライバシーバイアス(英: privacy bias)とは、あるコンテキスト内で情報の流れが適切に流れる際の歪を指す。
このスキューは、既存の期待に沿うか、システムの問題の症状を示すかもしれない。
文脈整合性に基づく手法を用いてプライバシーバイアスを評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T17:50:31Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。