論文の概要: AMEL: Accumulated Message Effects on LLM Judgments
- arxiv url: http://arxiv.org/abs/2605.22714v2
- Date: Sat, 23 May 2026 06:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.968157
- Title: AMEL: Accumulated Message Effects on LLM Judgments
- Title(参考訳): AMEL: LLM判決に対する累積的なメッセージ効果
- Authors: Sid-Ali Temkit,
- Abstract要約: 先行会話履歴の極性がその後の判断に偏っているかどうかを問う。
主に肯定的あるいは否定的な評価で飽和した同一の検査項目を分離または後史で提示する。
この効果は、モデルが実際にベースラインで不確実であるアイテムに集中する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are routinely used as automated evaluators: to review code, moderate content, or score outputs, often with many items passing through one conversation. We ask whether the polarity of prior conversation history biases subsequent judgments, an effect we call the accumulated message effect on LLM judgments (AMEL). Across 75,898 API calls to 11 models from 4 providers (OpenAI, Anthropic, Google, and four open-source models), we present identical test items in isolation or following histories saturated with predominantly positive or negative evaluations. Models shift toward the conversation's prevailing polarity (d = -0.17, p < 10^-46). The effect concentrates on items where the model is genuinely uncertain at baseline (d = -0.34 for high-entropy items, vs d = -0.15 when the baseline is deterministic). Bias does not grow with context length: 5 prior turns and 50 produce the same shift (Spearman |r| < 0.01; OLS slope p = 0.80). And there is a negativity asymmetry: paired per item, negative histories induce 1.62x more bias than positive (t = 13.46, p < 10^-39, n = 2,481). Scaling helps but does not solve it (Anthropic: Haiku -0.22 to Opus -0.17; OpenAI: Nano -0.34 to GPT-5.2 -0.17). Three follow-ups narrow the mechanism. The token probability distribution shifts continuously, not at a threshold. The negativity asymmetry has both token-level and semantic components, though attributing the balance is exploratory at our sample sizes. Position does not matter: five biased turns anywhere in a 50-turn history produce the same shift. The simplest fix for evaluation pipelines is a fresh context per item; when batching is unavoidable, balancing the history helps.
- Abstract(参考訳): 大きな言語モデルは、コードレビュー、適度なコンテンツ、あるいはスコアアウトプットなどの自動評価器として日常的に使われ、多くの場合、多くのアイテムが1つの会話を通り抜ける。
先行会話履歴の極性がその後の判断に偏りがあるかどうかを問うとともに,LLM判定(AMEL)に対する累積メッセージ効果と呼ぶ。
4つのプロバイダ(OpenAI, Anthropic, Google, および4つのオープンソースモデル)から11モデルへの75,898件のAPI呼び出しに対して、同一のテスト項目を分離またはフォロー履歴で提示する。
モデルは会話の優勢な極性(d = -0.17, p < 10^-46)へと移行する。
この効果は、モデルがベースラインで真に不確かであるアイテムに集中する(高エントロピーアイテムではd = -0.34、ベースラインが決定論的であればd = -0.15)。
5回目と50回目は同じシフト(Spearman |r| < 0.01; OLS slope p = 0.80)を生じる。
負のヒストリーは正よりも1.62倍のバイアス(t = 13.46, p < 10^-39, n = 2,481)を誘導する。
スケーリングは役に立つが解決しない(アントロピック:Haiku -0.22 to Opus -0.17; OpenAI:Nano -0.34 to GPT-5.2 -0.17)。
3つのフォローアップがメカニズムを絞った。
トークン確率分布はしきい値ではなく連続的にシフトする。
負の非対称性はトークンレベルと意味的要素の両方を持っているが、このバランスは我々のサンプルサイズで探索的である。
5つの偏りのある曲がり角は、50ターンの履歴のどこにでも同じシフトをもたらします。
評価パイプラインの最も単純な修正は、アイテム毎の新鮮なコンテキストであり、バッチ処理が避けられない場合には、履歴のバランスが役立ちます。
関連論文リスト
- Judging the Judges: A Systematic Evaluation of Bias Mitigation Strategies in LLM-as-a-Judge Pipelines [0.0]
4つのプロバイダファミリーの5つの審査モデルに対して,9つのデバイアスング戦略を比較した。
スタイルバイアスは支配的バイアス(全モデルで0.76-0.92)であり、位置バイアス(=0.04)をはるかに超えている。
統合予算戦略により、Claude Sonnet 4 は+11.2 pp (p 0.0001) に大幅に改善され、他のモデルの方向性に好意的な傾向が見られた。
論文 参考訳(メタデータ) (2026-04-25T07:18:30Z) - Product-of-Experts Training Reduces Dataset Artifacts in Natural Language Inference [0.0]
私たちは、偏見のあるモデルが過度に信頼されている例を減らし、Product-of-Experts(PoE)トレーニングを提案します。
PoEはほぼ精度(89.10%対89.30%)を維持し、バイアスを4.71%削減する(バイアス合意49.85%から45%)。
論文 参考訳(メタデータ) (2026-04-21T04:23:20Z) - Disposition Distillation at Small Scale: A Three-Arc Negative Result [0.0]
内部ドラフトでは、Qwen3-0.6Bの学生に+33.9ポイントのMCASと+15.3ポイントのHumanEvalを報告している。
コンテントを損なうことなく, 判断された配置をスタイル的な模倣に転換するオペレータは見つからない。
我々は, 線形H_lastプローブに対する3つのアーク負の結果, 線形H_lastプローブに対する2つの欠陥モード分類, および, 自分たちが生成した偽陽性のクラスを, 公開可能な負に変換する正直なファルシフィケーションパイプラインを寄与する。
論文 参考訳(メタデータ) (2026-04-13T17:40:31Z) - e5-omni: Explicit Cross-modal Alignment for Omni-modal Embeddings [91.3041144166326]
市販の視覚言語モデルをロバストなオムニモーダル埋め込みモデルに適応させる軽量な明示的アライメントレシピであるe5-omniを提案する。
e5-omniは、類似度尺度を整合させるためにモード対応温度校正と、混乱する負の点に焦点を合わせた制御可能な負のカリキュラムと、クロスモーダル幾何に適合するバッチホワイトニングを組み合わせる。
MMEB-V2とAudioCapsの実験では、強いバイモーダルおよびオムニモーダルベースラインよりも一貫した利得を示した。
論文 参考訳(メタデータ) (2026-01-07T07:39:40Z) - A Multifaceted Analysis of Negative Bias in Large Language Models through the Lens of Parametric Knowledge [48.00855840536793]
負のバイアスとは、二分決定タスクにおいて負の反応を過度に生成する大きな言語モデルの傾向を指す。
大規模言語モデルでは, 形式レベルの負のバイアスが示され, つまり, プロンプト形式は, 負の応答のセマンティクスよりも応答に強く影響している。
モデルがイエスノー質問に答える十分な知識を欠いた場合、負の応答を生じる傾向にあるショートカットの挙動を同定する。
論文 参考訳(メタデータ) (2025-11-14T01:18:18Z) - Positional Biases Shift as Inputs Approach Context Window Limits [57.00239097102958]
入力がモデルのコンテキストウィンドウの最大50%を占める場合、LiM効果は最強となる。
関係情報が入力の終端に近づくと,モデルの性能が向上する,距離に基づくバイアスが観測される。
論文 参考訳(メタデータ) (2025-08-10T20:40:24Z) - Mitigate One, Skew Another? Tackling Intersectional Biases in Text-to-Image Models [73.20190633746442]
テキスト・ツー・イメージ・モデルにおけるバイアス相互作用を解析・定量化するための新しいツールであるBiasConnectを紹介する。
ユーザが定義した目標分布と優先度重みを導出する交叉バイアス緩和アルゴリズムであるInterMitを提案する。
論文 参考訳(メタデータ) (2025-05-22T20:56:38Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Exploring the Impact of Negative Samples of Contrastive Learning: A Case
Study of Sentence Embedding [14.295787044482136]
文埋め込みのための負のサンプル列を持つモーメントコントラスト学習モデル、すなわちMoCoSEを提案する。
我々は最大トレーサブル距離測定値を定義し、テキストが負のサンプルの履歴情報からどの程度の差があるかを学習する。
実験の結果,最大トレーサブル距離が一定の範囲にある場合に最もよい結果が得られることがわかった。
論文 参考訳(メタデータ) (2022-02-26T08:29:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。