論文の概要: DarkBench: Benchmarking Dark Patterns in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.10728v1
- Date: Thu, 13 Mar 2025 11:48:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:09:28.529211
- Title: DarkBench: Benchmarking Dark Patterns in Large Language Models
- Title(参考訳): DarkBench: 大規模言語モデルにおけるダークパターンのベンチマーク
- Authors: Esben Kran, Hieu Minh "Jord" Nguyen, Akash Kundu, Sami Jawhar, Jinsuk Park, Mateusz Maria Jurewicz,
- Abstract要約: 大規模言語モデル(LLM)におけるダークデザインパターンを検出するベンチマークであるDarkBenchを紹介する。
私たちのベンチマークでは、ブランドバイアス、ユーザ保持、梅毒症、人為性、有害な生成、スニーカーの6つのカテゴリに660のプロンプトが組み込まれています。
- 参考スコア(独自算出の注目度): 0.6597195879147557
- License:
- Abstract: We introduce DarkBench, a comprehensive benchmark for detecting dark design patterns--manipulative techniques that influence user behavior--in interactions with large language models (LLMs). Our benchmark comprises 660 prompts across six categories: brand bias, user retention, sycophancy, anthropomorphism, harmful generation, and sneaking. We evaluate models from five leading companies (OpenAI, Anthropic, Meta, Mistral, Google) and find that some LLMs are explicitly designed to favor their developers' products and exhibit untruthful communication, among other manipulative behaviors. Companies developing LLMs should recognize and mitigate the impact of dark design patterns to promote more ethical AI.
- Abstract(参考訳): 我々は,ダークデザインパターンを検出するための包括的なベンチマークであるDarkBenchを紹介した。
私たちのベンチマークでは、ブランドバイアス、ユーザ保持、梅毒症、人為性、有害な生成、スニーカーの6つのカテゴリに660のプロンプトが組み込まれています。
当社は,OpenAI, Anthropic, Meta, Mistral, Googleの大手企業5社(OpenAI, Anthropic, Meta, Mistral, Google)のモデルを評価した結果,一部のLCMが開発者製品に好意的であり,不合理なコミュニケーションを示すように設計されていることがわかった。
LLMを開発する企業は、より倫理的なAIを促進するために、ダークデザインパターンの影響を認識し、緩和する必要がある。
関連論文リスト
- Hidden Darkness in LLM-Generated Designs: Exploring Dark Patterns in Ecommerce Web Components Generated by LLMs [4.934936297965669]
この研究は、Claude、GPT、Gemini、Llamaの4つの人気のあるLCMによって生成されたeコマースWebコンポーネントの設計を評価した。
生成した成分の3分の1以上は、少なくとも1つの暗いパターンを含む。
ダークパターンは、企業利益に関連するコンポーネントでも、より頻繁に生成される。
論文 参考訳(メタデータ) (2025-02-19T07:35:07Z) - Compromising Honesty and Harmlessness in Language Models via Deception Attacks [0.04499833362998487]
ディセプション・アタック(deception attack)は、ユーザーが選択したトピックをトリガーし、他の人に正確さを保ちながら、ユーザーを誤解させるようなモデルをカスタマイズする。
詐欺モデルもまた有害性を示し、ヘイトスピーチ、ステレオタイプ、その他の有害な内容を生成する。
論文 参考訳(メタデータ) (2025-02-12T11:02:59Z) - Attack-in-the-Chain: Bootstrapping Large Language Models for Attacks Against Black-box Neural Ranking Models [111.58315434849047]
本稿では,アタック・イン・ザ・チェーン(Attack-in-the-Chain)という新しいランキングアタックフレームワークを紹介する。
大型言語モデル(LLMs)とニューラルランキングモデル(NRMs)の相互作用をチェーン・オブ・ソートに基づいて追跡する。
2つのWeb検索ベンチマークによる実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-12-25T04:03:09Z) - Stereotype or Personalization? User Identity Biases Chatbot Recommendations [54.38329151781466]
大規模言語モデル(LLM)は,ユーザが何を望んでいるのか,何者なのかを反映したレコメンデーションを生成する。
モデルが、ユーザが意図的に自身のアイデンティティを明らかにするかどうかに関わらず、人種的にステレオタイプなレコメンデーションを生成することがわかった。
実験の結果,ユーザの識別がモデルレコメンデーションに大きく影響しているにもかかわらず,モデル応答はユーザクエリに応答して,この事実を難読化することがわかった。
論文 参考訳(メタデータ) (2024-10-08T01:51:55Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Detecting Deceptive Dark Patterns in E-commerce Platforms [0.0]
ダークパターン(ダークパターン)は、電子商取引サイトがウェブサイトに利益をもたらす方法でユーザーの振舞いを操作するために使う偽のユーザーインターフェースである。
既存のソリューションとしては、コンピュータビジョンと自然言語処理を使用するUIGuardや、検出可能性に基づいてダークパターンを分類するアプローチ、あるいはデータセットに基づいてトレーニングされた機械学習モデルを使用するアプローチなどがある。
我々は,Webスクレイピング手法と細調整されたBERT言語モデルを組み合わせることを提案する。
論文 参考訳(メタデータ) (2024-05-27T16:32:40Z) - CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Why is the User Interface a Dark Pattern? : Explainable Auto-Detection
and its Analysis [1.4474137122906163]
ダークパターンは、ユーザーが意図せず振る舞うオンラインサービスのための偽りのユーザーインターフェイスデザインである。
解釈可能なダークパターン自動検出,すなわち,特定のユーザインターフェースがダークパターンを持つものとして検出される理由について検討する。
我々の発見は、ユーザーがダークパターンで操作されることを防ぎ、より公平なインターネットサービスの構築を支援する可能性がある。
論文 参考訳(メタデータ) (2023-12-30T03:53:58Z) - Prompt Highlighter: Interactive Control for Multi-Modal LLMs [50.830448437285355]
本研究では,マルチモーダル LLM (LLMs&VLMs) 推論における重要な側面として,明示的な制御可能なテキスト生成を目標とする。
本稿では,新しい推論手法であるPrompt Highlighterを導入し,ユーザが特定のプロンプトスパンをハイライトし,生成中のフォーカスをインタラクティブに制御できるようにする。
推論中、注意重みを通して強調されたトークンでモデルを導くことで、より望ましい出力が得られます。
論文 参考訳(メタデータ) (2023-12-07T13:53:29Z) - RecExplainer: Aligning Large Language Models for Explaining Recommendation Models [50.74181089742969]
大規模言語モデル (LLM) は、理解、推論、指導において顕著な知性を示した。
本稿では, ブラックボックスレコメンデータモデルを説明するために, LLM を代理モデルとして利用することについて検討する。
効果的なアライメントを容易にするために,行動アライメント,意図アライメント,ハイブリッドアライメントという3つの手法を導入する。
論文 参考訳(メタデータ) (2023-11-18T03:05:43Z) - CRITIC: Large Language Models Can Self-Correct with Tool-Interactive
Critiquing [139.77117915309023]
CRITICは、大規模な言語モデルに対して、ツールとのヒューマンインタラクションに似た方法で、自分たちのアウトプットの検証と修正を可能にする。
自由形式の質問応答、数学的プログラム合成、毒性低減を含む包括的評価は、CRITICがLLMの性能を一貫して向上することを証明している。
論文 参考訳(メタデータ) (2023-05-19T15:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。