Fugu-MT 論文翻訳(概要): Reducing Selection Bias in Large Language Models

論文の概要: Reducing Selection Bias in Large Language Models

arxiv url: http://arxiv.org/abs/2402.01740v3
Date: Sat, 15 Jun 2024 13:23:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 06:35:20.386657
Title: Reducing Selection Bias in Large Language Models
Title（参考訳）: 大規模言語モデルにおける選択バイアスの低減
Authors: J. E. Eicher, R. F. Irgolič,
Abstract要約: 大規模言語モデル(LLM)は意味的タスクの解釈と実行に不可欠である。本研究は、これらのバイアスを批判的に検討し、代表リスト選択タスクへの影響を定量化する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) like gpt-3.5-turbo-0613 and claude-instant-1.2 are vital in interpreting and executing semantic tasks. Unfortunately, these models' inherent biases adversely affect their performance Particularly affected is object selection from lists; a fundamental operation in digital navigation and decision-making. This research critically examines these biases and quantifies the effects on a representative list selection task. To explore these biases, we experiment manipulating temperature, list length, object identity, object type, prompt complexity, and model. We isolated and measured the influence of the biases on selection behavior. Our findings show that bias structure is strongly dependent on the model, with object type modulating the magnitude of the effect. With a strong primacy effect, causing the first objects in a list to be disproportionately represented in outputs. The usage of guard rails, a prompt engineering method of ensuring a response structure, increases bias and decreases instruction adherence when to a selection task. The bias is ablated when the guard rail step is separated from the list sampling step, lowering the complexity of each individual task. We provide LLM applications and theoretically suggest that LLMs experience a form of cognitive load that is compensated for with bias.
Abstract（参考訳）: gpt-3.5-turbo-0613やclaude-instant-1.2のような大きな言語モデル(LLM)は、セマンティックタスクの解釈と実行に不可欠である。残念ながら、これらのモデル固有のバイアスは、パフォーマンスに悪影響を及ぼす。特に、リストからのオブジェクト選択は、デジタルナビゲーションと意思決定における基本的な操作である。本研究は、これらのバイアスを批判的に検討し、代表リスト選択タスクへの影響を定量化する。これらのバイアスを探索するために、温度、リストの長さ、オブジェクトのアイデンティティ、オブジェクトタイプ、迅速な複雑性、モデルを操作する実験を行う。選択行動に対するバイアスの影響を分離,測定した。以上の結果から, モデルにバイアス構造が強く依存していることが示唆された。強いプライマリー効果により、リストの最初のオブジェクトが不均等に出力に表現される。応答構造を確保するための素早いエンジニアリング手法であるガードレールの使用はバイアスを増大させ、選択タスクに対する指示の順守を減少させる。ガードレールステップがリストサンプリングステップから分離されるとバイアスが緩和され、個々のタスクの複雑さが低下する。我々は LLM アプリケーションを提供し、理論的には LLM がバイアスを補償する認知的負荷を経験することを示唆する。

関連論文リスト

Model Specific Task Similarity for Vision Language Model Selection via Layer Conductance [92.72779885657373]
本稿では,視覚エンコーダの内部関数力学におけるモデル選択の基盤となるフレームワークを提案する。提案手法は,各タスクをレイヤワイドコンダクタンスにより表現し,エントロピー正規化アライメントによる目標条件付きブロック重要度分布を導出する。そこで本研究では,DCD(Directional Conductance Divergence)という,ソースタスクが対象の機能ブロックをいかに効果的にカバーするかを定量化する非対称な指標を提案する。
論文参考訳（メタデータ） (2026-02-01T17:29:43Z)
Understanding the Implicit Biases of Design Choices for Time Series Foundation Models [90.894232610821]
時系列基礎モデル(TSFM)は、時系列予測と関連する時間的タスクのための潜在的に強力で汎用的なツールのクラスである。彼らの行動はデザインの微妙な帰納的バイアスによって強く形作られています。モデルやデータの性質によって、これらのバイアスが直感的であるか、非常に直感的であるかを示す。
論文参考訳（メタデータ） (2025-10-22T04:42:35Z)
Exploiting Primacy Effect To Improve Large Language Models [1.03590082373586]
本研究は, 微調整大言語モデル(LLM)における予備性バイアスに着目した。まず最初に、微調整によってこのバイアスが増幅されることを示しました。我々は、正しい回答の知識を必要とせず、クエリのセマンティックな類似性に基づいて応答オプションを並べ替えることで、この効果を戦略的に活用する。
論文参考訳（メタデータ） (2025-07-18T14:18:18Z)
Systematic Bias in Large Language Models: Discrepant Response Patterns in Binary vs. Continuous Judgment Tasks [13.704342633541454]
大規模言語モデル(LLM)は、心理学的テキスト分析や自動システムにおける意思決定といったタスクにおいて、ますます使われるようになっている。本研究では,二分法と連続法という異なる応答形式がLLMの判断に体系的にどのような影響を及ぼすかを検討する。
論文参考訳（メタデータ） (2025-04-28T03:20:55Z)
How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文参考訳（メタデータ） (2024-11-28T16:20:25Z)
Addressing Blind Guessing: Calibration of Selection Bias in Multiple-Choice Question Answering by Video Language Models [16.34646723046073]
ビデオ言語モデル(VLM)は、複雑なビデオ中心の質問に答えるように設計されている。現在のベンチマークでは、選択バイアスのため、VLMの完全な推論能力の取得に失敗している。本研究は,ビデオ-テキスト LLM モデルにおける選択バイアスについて,初めて焦点を絞った研究である。
論文参考訳（メタデータ） (2024-10-18T07:52:22Z)
Aggregation Artifacts in Subjective Tasks Collapse Large Language Models' Posteriors [74.04775677110179]
In-context Learning (ICL) は、Large Language Models (LLM) を用いた自然言語処理の主要な手法となっている。本研究は,低アグリゲーション,異質なアノテーションを組み合わせたアグリゲーションの結果が,プロンプトに有害なノイズを生じさせるアノテーションのアーティファクトに繋がるかどうかを考察する。この結果から,アグリゲーションは主観的タスクのモデル化において不明瞭な要因であり,代わりに個人をモデリングすることを重視することが示唆された。
論文参考訳（メタデータ） (2024-10-17T17:16:00Z)
Revisiting SMoE Language Models by Evaluating Inefficiencies with Task Specific Expert Pruning [78.72226641279863]
SMOE(Sparse Mixture of Expert)モデルは、言語モデリングにおける高密度モデルに代わるスケーラブルな代替品として登場した。本研究は,SMoEアーキテクチャの設計に関する意思決定を行うために,タスク固有のモデルプルーニングについて検討する。適応型タスク対応プルーニング手法 UNCURL を導入し,MoE 層当たりの専門家数をオフラインで学習する手法を提案する。
論文参考訳（メタデータ） (2024-09-02T22:35:03Z)
Large Language Models are Biased Reinforcement Learners [0.0]
大規模言語モデル (LLM) は相対値バイアスの行動的シグネチャを示す。計算的認知モデリングにより、LLMの挙動は単純なRLアルゴリズムによってよく記述されていることが明らかになった。
論文参考訳（メタデータ） (2024-05-19T01:43:52Z)
Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。 3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文参考訳（メタデータ） (2024-04-04T15:36:53Z)
Debiasing Multimodal Large Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文参考訳（メタデータ） (2024-03-08T12:35:07Z)
Taxonomy-based CheckList for Large Language Model Evaluation [0.0]
我々は、自然言語の介入に人間の知識を導入し、事前訓練された言語モデル(LM)の振る舞いを研究する。 CheckListの振る舞いテストに触発されて,LMの非倫理的行動の探索と定量化を目的としたチェックリストスタイルのタスクを提案する。
論文参考訳（メタデータ） (2023-12-15T12:58:07Z)
Debiasing Algorithm through Model Adaptation [5.482673673984126]
因果解析を行い、問題のあるモデル成分を同定し、フィードフォワードの中間層が最も偏りを伝達しやすいことを明らかにする。解析結果に基づいて,これらの層の重み行列に線形射影を適用することにより,モデルに介入する。提案手法であるDAMAは,下流タスクにおけるモデルの性能を維持しながら,様々な指標によって測定されるバイアスを著しく低減する。
論文参考訳（メタデータ） (2023-10-29T05:50:03Z)
Mind the instructions: a holistic evaluation of consistency and interactions in prompt-based learning [14.569770617709073]
本稿では,どの設計選択が課題予測の不安定性や矛盾の原因となるかを詳細に分析する。本稿では,入力分布とラベルの相関関係が,誘導モデルにのみ小さな問題となることを示す。統計的に分析し、どの要因が最も影響力があり、インタラクティブで、安定したかを示す。
論文参考訳（メタデータ） (2023-10-20T13:25:24Z)
Delving into Identify-Emphasize Paradigm for Combating Unknown Bias [52.76758938921129]
同定精度を高めるため,有効バイアス強調スコアリング法(ECS)を提案する。また, マイニングされたバイアスアライメントとバイアスコンプリケート試料のコントリビューションのバランスをとるために, 勾配アライメント(GA)を提案する。様々な環境で複数のデータセットで実験を行い、提案されたソリューションが未知のバイアスの影響を軽減することを実証した。
論文参考訳（メタデータ） (2023-02-22T14:50:24Z)
Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。 DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文参考訳（メタデータ） (2022-12-11T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。