Fugu-MT 論文翻訳(概要): Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ?

論文の概要: Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ?

arxiv url: http://arxiv.org/abs/2410.13517v2
Date: Tue, 05 Nov 2024 09:08:28 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:36.916355
Title: Bias in the Mirror: Are LLMs opinions robust to their own adversarial attacks ?
Title（参考訳）: 鏡の中のバイアス : LLMの意見は敵の攻撃に対して堅牢か?
Authors: Virgile Rennard, Christos Xypolopoulos, Michalis Vazirgiannis,
Abstract要約: 大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。 LLMの2つのインスタンスが自己議論を行う新しいアプローチを導入し、反対の視点でモデルの中立バージョンを説得する。我々は、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。
参考スコア（独自算出の注目度）: 22.0383367888756
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large language models (LLMs) inherit biases from their training data and alignment processes, influencing their responses in subtle ways. While many studies have examined these biases, little work has explored their robustness during interactions. In this paper, we introduce a novel approach where two instances of an LLM engage in self-debate, arguing opposing viewpoints to persuade a neutral version of the model. Through this, we evaluate how firmly biases hold and whether models are susceptible to reinforcing misinformation or shifting to harmful viewpoints. Our experiments span multiple LLMs of varying sizes, origins, and languages, providing deeper insights into bias persistence and flexibility across linguistic and cultural contexts.
Abstract（参考訳）: 大規模言語モデル(LLM)は、トレーニングデータとアライメントプロセスからバイアスを受け継ぎ、微妙な方法で応答に影響を与える。多くの研究がこれらのバイアスを調査しているが、相互作用中の堅牢性についてはほとんど研究されていない。本稿では,LLMの2つのインスタンスが自己議論を行う新たなアプローチを提案する。これを通じて、モデルがどのようにしっかりとバイアスを保ち、誤った情報を強化するか、有害な視点に移行するかを評価する。我々の実験は、さまざまなサイズ、起源、言語からなる複数のLLMにまたがっており、バイアスの持続性と言語や文化の文脈における柔軟性に関する深い洞察を提供する。

関連論文リスト

Disentangling Interaction and Bias Effects in Opinion Dynamics of Large Language Models [0.42481744176244507]
大きな言語モデルは、人間の意見のダイナミクスをシミュレートするためにますます使われています。このようなバイアスを3つ解き、定量化するためのベイズ的枠組みを提案する。このフレームワークを多段階の対話に適用すると、意見の軌跡はすぐに共有の魅力に収束する傾向があることが分かる。
論文参考訳（メタデータ） (2025-09-08T16:26:45Z)
Judging with Many Minds: Do More Perspectives Mean Less Prejudice? On Bias Amplifications and Resistance in Multi-Agent Based LLM-as-Judge [70.89799989428367]
我々は、位置バイアス、冗長性バイアス、チェーンオブ思考バイアス、バンドワゴンバイアスの4つの多様なバイアスタイプを体系的に分析する。広く採用されているマルチエージェントLLM-as-JudgeフレームワークであるMulti-Agent-DebateとLLM-as-Meta-Judgeでこれらのバイアスを評価する。
論文参考訳（メタデータ） (2025-05-26T03:56:41Z)
MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
Through the LLM Looking Glass: A Socratic Self-Assessment of Donkeys, Elephants, and Markets [42.55423041662188]
この研究は、外部解釈に頼るのではなく、モデルのバイアスを直接測定することを目的としている。我々の結果は、あらゆるモデルで共和党の立場よりも民主党を一貫して好んでいることを示している。偏見は西洋のLLMによって異なるが、中国で開発されたものは社会主義に強く依存している。
論文参考訳（メタデータ） (2025-03-20T19:40:40Z)
Explicit vs. Implicit: Investigating Social Bias in Large Language Models through Self-Reflection [5.800102484016876]
大規模言語モデル(LLM)は、生成されたコンテンツに様々なバイアスとステレオタイプを示すことが示されている。本稿では, LLMにおける明示的, 暗黙的な偏見を解明するために, 社会心理学理論に基づく体系的枠組みを提案する。
論文参考訳（メタデータ） (2025-01-04T14:08:52Z)
Large Language Models Reflect the Ideology of their Creators [73.25935570218375]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。異なるLLMや言語にまたがるイデオロギー的姿勢の顕著な多様性を明らかにする。
論文参考訳（メタデータ） (2024-10-24T04:02:30Z)
Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。 LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文参考訳（メタデータ） (2024-10-03T15:28:05Z)
Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文参考訳（メタデータ） (2024-08-14T16:55:06Z)
Evaluating Implicit Bias in Large Language Models by Attacking From a Psychometric Perspective [66.34066553400108]
我々は、ある人口層に対する大きな言語モデルの暗黙の偏見を厳格に評価する。心理測定の原則にインスパイアされた我々は,3つの攻撃的アプローチ,すなわち,軽視,軽視,指導を提案する。提案手法は,LLMの内部バイアスを競合ベースラインよりも効果的に引き出すことができる。
論文参考訳（メタデータ） (2024-06-20T06:42:08Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Investigating Bias in LLM-Based Bias Detection: Disparities between LLMs and Human Perception [13.592532358127293]
大規模言語モデル(LLM)におけるバイアスの存在と性質について検討する。 LLMが特に政治的バイアス予測やテキスト継続タスクにおいてバイアスを示すかどうかを調査する。我々は,素早い工学とモデル微調整を含む脱バイアス戦略を提案する。
論文参考訳（メタデータ） (2024-03-22T00:59:48Z)
Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models [61.45529177682614]
我々は,大規模言語モデルにおける価値と意見の制約評価パラダイムに挑戦する。強制されない場合、モデルが実質的に異なる答えを与えることを示す。我々はこれらの知見をLLMの価値と意見を評価するための推奨とオープンな課題に抽出する。
論文参考訳（メタデータ） (2024-02-26T18:00:49Z)
Cognitive Bias in Decision-Making with LLMs [19.87475562475802]
大規模言語モデル(LLM)は、幅広い意思決定タスクをサポートするツールとして大きな可能性を秘めている。 LLMは保護されたグループに対する社会的バイアスを継承し、認知バイアスと機能的に類似している。私たちの研究は、LLMの認知バイアスを発見し、評価し、緩和するために設計されたフレームワークであるBiasBusterを紹介します。
論文参考訳（メタデータ） (2024-02-25T02:35:56Z)
Exploring Value Biases: How LLMs Deviate Towards the Ideal [57.99044181599786]
LLM(Large-Language-Models)は幅広いアプリケーションにデプロイされ、その応答は社会的影響を増大させる。価値バイアスは、人間の研究結果と同様、異なるカテゴリにわたるLSMにおいて強いことが示される。
論文参考訳（メタデータ） (2024-02-16T18:28:43Z)
Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文参考訳（メタデータ） (2023-11-15T00:02:25Z)
Quantifying the Impact of Large Language Models on Collective Opinion Dynamics [7.0012506428382375]
我々は、大言語モデル(LLM)の意見をエンコードするために、意見ネットワークダイナミクスモデルを作成する。その結果, LLMのアウトプットは, 集団的意見差に一意かつ肯定的な影響を及ぼすことが明らかとなった。我々の実験は、反対/中立/ランダムの意見を持つ追加のエージェントを導入することで、バイアスや有害なアウトプットの影響を効果的に軽減できることを示した。
論文参考訳（メタデータ） (2023-08-07T05:45:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。