Fugu-MT 論文翻訳(概要): Systematic Bias in Large Language Models: Discrepant Response Patterns in Binary vs. Continuous Judgment Tasks

論文の概要: Systematic Bias in Large Language Models: Discrepant Response Patterns in Binary vs. Continuous Judgment Tasks

arxiv url: http://arxiv.org/abs/2504.19445v1
Date: Mon, 28 Apr 2025 03:20:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-02 19:15:54.296537
Title: Systematic Bias in Large Language Models: Discrepant Response Patterns in Binary vs. Continuous Judgment Tasks
Title（参考訳）: 大規模言語モデルにおける体系的バイアス:二項対連続判断課題における離散応答パターン
Authors: Yi-Long Lu, Chunhui Zhang, Wei Wang,
Abstract要約: 大規模言語モデル(LLM)は、心理学的テキスト分析や自動システムにおける意思決定といったタスクにおいて、ますます使われるようになっている。本研究では,二分法と連続法という異なる応答形式がLLMの判断に体系的にどのような影響を及ぼすかを検討する。
参考スコア（独自算出の注目度）: 13.704342633541454
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) are increasingly used in tasks such as psychological text analysis and decision-making in automated workflows. However, their reliability remains a concern due to potential biases inherited from their training process. In this study, we examine how different response format: binary versus continuous, may systematically influence LLMs' judgments. In a value statement judgments task and a text sentiment analysis task, we prompted LLMs to simulate human responses and tested both formats across several models, including both open-source and commercial models. Our findings revealed a consistent negative bias: LLMs were more likely to deliver "negative" judgments in binary formats compared to continuous ones. Control experiments further revealed that this pattern holds across both tasks. Our results highlight the importance of considering response format when applying LLMs to decision tasks, as small changes in task design can introduce systematic biases.
Abstract（参考訳）: 大規模言語モデル(LLM)は、心理学的テキスト分析や自動ワークフローにおける意思決定といったタスクでますます使われている。しかしながら、トレーニングプロセスから受け継がれた潜在的なバイアスのために、信頼性が懸念されている。本研究では,二分法と連続法という応答形式がLLMの判断に系統的にどう影響するかを検討する。評価文判断タスクとテキスト感情分析タスクでは、LLMに人間の反応をシミュレートするよう促し、オープンソースモデルと商用モデルの両方を含む複数のモデルで両方のフォーマットをテストした。 LLMは連立形式よりも連立形式で「否定的」な判断を下す傾向があった。制御実験により、このパターンが両方のタスクにまたがっていることが明らかとなった。課題設計の小さな変更が体系的バイアスを生じさせるため,LLMを意思決定タスクに適用する際の応答形式を検討することの重要性を強調した。

関連論文リスト

Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文参考訳（メタデータ） (2025-07-17T18:56:41Z)
Meta-Fair: AI-Assisted Fairness Testing of Large Language Models [2.9632404823837777]
公正さは人工知能(AI)システムの開発における中核的な原則である。大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
論文参考訳（メタデータ） (2025-07-03T11:20:59Z)
Mimicking or Reasoning: Rethinking Multi-Modal In-Context Learning in Vision-Language Models [19.361686225381447]
視覚言語モデル(VLM)は、文脈内学習(ICL)を示すと広く想定されている提案するMM-ICLにはReasoningパイプラインが組み込まれている。
論文参考訳（メタデータ） (2025-06-09T16:55:32Z)
MLLMs are Deeply Affected by Modality Bias [158.64371871084478]
MLLM(Multimodal Large Language Models)の最近の進歩は、テキストや画像などの多様なモダリティを統合する上で、有望な成果を示している。 MLLMはモダリティバイアスに強く影響され、しばしば言語に依存し、視覚入力のような他のモダリティを過小評価する。本稿では,MLLMはモダリティバイアスの影響を強く受けており,様々なタスクにまたがってその発現を明らかにする。
論文参考訳（メタデータ） (2025-05-24T11:49:31Z)
Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文参考訳（メタデータ） (2025-05-22T01:59:54Z)
No LLM is Free From Bias: A Comprehensive Study of Bias Evaluation in Large Language models [0.9620910657090186]
大規模言語モデル(LLM)は、異なる自然言語理解と生成タスクの性能を高めている。 LLMは様々なタスクにおける最先端のパフォーマンスを破っているが、トレーニングデータに存在する様々な形式のバイアスを反映していることが多い。物理特性から社会経済的カテゴリに至るまで,様々なバイアスをカバーできる代表的LCMを用いて,ベンチマークを統一的に評価する。
論文参考訳（メタデータ） (2025-03-15T03:58:14Z)
Understanding and Mitigating the Bias Inheritance in LLM-based Data Augmentation on Downstream Tasks [24.706895491806794]
この研究は、バイアス継承を理解し、分析し、緩和する最初の体系的な研究である。 6種類のバイアスが、異なるバイアス比でどのように現れるかを分析する。トークンベース,マスクベース,損失ベースの3つの緩和戦略を提案する。
論文参考訳（メタデータ） (2025-02-06T15:20:58Z)
Embodied Agent Interface: Benchmarking LLMs for Embodied Decision Making [85.24399869971236]
我々は,大規模言語モデル(LLM)を具体的意思決定のために評価することを目指している。既存の評価は最終的な成功率にのみ依存する傾向がある。本稿では,様々なタスクの形式化を支援する汎用インタフェース (Embodied Agent Interface) を提案する。
論文参考訳（メタデータ） (2024-10-09T17:59:00Z)
Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文参考訳（メタデータ） (2024-05-19T01:43:52Z)
Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文参考訳（メタデータ） (2024-05-17T03:50:28Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement [75.7148545929689]
大規模言語モデル(LLM)は、特定のタスクの自己フィードバックを通じてパフォーマンスを向上し、他のタスクを劣化させる。我々は、LSMの自己バイアス(自称世代を好む傾向)を正式に定義する。我々は、翻訳、制約付きテキスト生成、数学的推論の6つのLCMを解析する。
論文参考訳（メタデータ） (2024-02-18T03:10:39Z)
Uncertainty Quantification for In-Context Learning of Large Language Models [52.891205009620364]
大規模言語モデル(LLM)の画期的な能力として、文脈内学習が登場している。両タイプの不確かさを定量化するための新しい定式化法とそれに対応する推定法を提案する。提案手法は、プラグイン・アンド・プレイ方式でコンテキスト内学習の予測を理解するための教師なしの方法を提供する。
論文参考訳（メタデータ） (2024-02-15T18:46:24Z)
Taxonomy-based CheckList for Large Language Model Evaluation [0.0]
我々は、自然言語の介入に人間の知識を導入し、事前訓練された言語モデル(LM)の振る舞いを研究する。 CheckListの振る舞いテストに触発されて,LMの非倫理的行動の探索と定量化を目的としたチェックリストスタイルのタスクを提案する。
論文参考訳（メタデータ） (2023-12-15T12:58:07Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文参考訳（メタデータ） (2023-10-19T06:37:32Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
oLMpics -- On what Language Model Pre-training Captures [84.60594612120173]
本研究では,比較,協調,合成などの操作を必要とする8つの推論タスクを提案する。基本的な課題は、タスク上でのLMのパフォーマンスが、事前訓練された表現やタスクデータの微調整のプロセスに起因すべきかどうかを理解することである。
論文参考訳（メタデータ） (2019-12-31T12:11:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。