論文の概要: The Subjectivity of Monoculture
- arxiv url: http://arxiv.org/abs/2602.24086v1
- Date: Fri, 27 Feb 2026 15:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 19:48:24.486415
- Title: The Subjectivity of Monoculture
- Title(参考訳): モノカルチャーの主観性
- Authors: Nathanael Jo, Nikhil Garg, Manish Raghavan,
- Abstract要約: 機械学習モデルは、アウトプットが著しく一致するモノカルチャーを示すとしばしば言われる。
この問題は本質的に主観的であり、2つの重要な決定に依存している、と我々は主張する。
推測は検討中のモデルや項目の個体数に依存することを示す。
- 参考スコア(独自算出の注目度): 7.619222194421385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning models -- including large language models (LLMs) -- are often said to exhibit monoculture, where outputs agree strikingly often. But what does it actually mean for models to agree too much? We argue that this question is inherently subjective, relying on two key decisions. First, the analyst must specify a baseline null model for what "independence" should look like. This choice is inherently subjective, and as we show, different null models result in dramatically different inferences about excess agreement. Second, we show that inferences depend on the population of models and items under consideration. Models that seem highly correlated in one context may appear independent when evaluated on a different set of questions, or against a different set of peers. Experiments on two large-scale benchmarks validate our theoretical findings. For example, we find drastically different inferences when using a null model with item difficulty compared to previous works that do not. Together, our results reframe monoculture evaluation not as an absolute property of model behavior, but as a context-dependent inference problem.
- Abstract(参考訳): 大規模言語モデル(LLM)を含む機械学習モデルは、アウトプットが著しく一致するモノカルチャーを示すとしばしば言われる。
しかし、モデルがあまりに同意しすぎるという意味は何だろうか?
この問題は本質的に主観的であり、2つの重要な決定に依存している、と我々は主張する。
まず、アナリストは、"独立性"がどのようなものでなければならないかについて、ベースラインのnullモデルを指定する必要がある。
この選択は本質的に主観的であり、私たちが示すように、異なるnullモデルは過剰な合意について劇的に異なる推論をもたらす。
第二に、推定は検討中のモデルやアイテムの個体数に依存することを示す。
ある文脈で非常に相関しているように見えるモデルは、異なる質問セットで評価されたり、異なるピアセットに対して評価されたりすると、独立して現れることがある。
2つの大規模ベンチマークの実験は、我々の理論的な結果を検証する。
例えば、アイテムの難しさを伴うnullモデルを使用する場合、そうでない前の作業と比べて、大幅に異なる推論が見つかる。
結果から,モデル行動の絶対的特性ではなく,文脈依存推論問題としてのモノカルチャー評価が再検討された。
関連論文リスト
- From Black-box to Causal-box: Towards Building More Interpretable Models [57.23201263629627]
本稿では, 因果解釈可能性の概念を導入し, 特定のモデルのクラスから対実的クエリを評価できるときの形式化について述べる。
我々は、与えられたモデルアーキテクチャが与えられた偽物クエリをサポートするかどうかを決定する完全なグラフィカルな基準を導出する。
論文 参考訳(メタデータ) (2025-10-24T20:03:18Z) - Understanding the Implicit Biases of Design Choices for Time Series Foundation Models [90.894232610821]
時系列基礎モデル(TSFM)は、時系列予測と関連する時間的タスクのための潜在的に強力で汎用的なツールのクラスである。
彼らの行動はデザインの微妙な帰納的バイアスによって強く形作られています。
モデルやデータの性質によって、これらのバイアスが直感的であるか、非常に直感的であるかを示す。
論文 参考訳(メタデータ) (2025-10-22T04:42:35Z) - Reply to "Comment on 'Experimentally adjudicating between different causal accounts of Bell-inequality violations via statistical model selection'" [0.0]
Hance と Hossenfelder はコメントの中で、超決定論的モデルの目的を誤って表現したと主張している。
本稿で定義した超決定論的モデルの異なるクラスと、これらのどれが実験結果に嫌われているのかという結論を思い出すことで、この主張に異議を唱える。
論文 参考訳(メタデータ) (2024-12-03T20:47:47Z) - "Patriarchy Hurts Men Too." Does Your Model Agree? A Discussion on Fairness Assumptions [3.706222947143855]
グループフェアネスの文脈では、このアプローチはデータへのバイアスの導入方法に関する暗黙の仮定を曖昧にすることが多い。
我々は偏りの過程が公正スコアの単調関数であり、感度属性のみに依存すると仮定している。
偏見過程の振舞いは単なる単調性よりも複雑であり、つまり暗黙の仮定を特定し、否定する必要がある。
論文 参考訳(メタデータ) (2024-08-01T07:06:30Z) - Replacing Judges with Juries: Evaluating LLM Generations with a Panel of Diverse Models [56.02275285521847]
LLm評価器のパネル(PoLL)を用いた評価モデルを提案する。
より多数の小さなモデルで構成されたPoLLは,1つの大判定器より優れ,不整合モデルファミリーの構成によるモデル内バイアスが小さく,しかも7倍以上のコストがかかる。
論文 参考訳(メタデータ) (2024-04-29T15:33:23Z) - Context versus Prior Knowledge in Language Models [49.17879668110546]
言語モデルは、事前学習中に学んだ事前知識と、文脈で提示された新しい情報を統合する必要があることが多い。
本稿では,モデルがコンテキストと先行するエンティティへの依存性を測定するための2つの相互情報ベースメトリクスを提案する。
論文 参考訳(メタデータ) (2024-04-06T13:46:53Z) - GAPX: Generalized Autoregressive Paraphrase-Identification X [24.331570697458954]
このパフォーマンス低下の主な原因は、ネガティブな例によって導入されたバイアスである。
我々は、推論中にどれだけの重量を与えるべきかを効果的に、かつ自動的に決定できるパープレキシティーに基づくアウト・オブ・ディストリビューション・メトリックを導入する。
論文 参考訳(メタデータ) (2022-10-05T01:23:52Z) - What do Toothbrushes do in the Kitchen? How Transformers Think our World
is Structured [137.83584233680116]
本稿では,トランスフォーマーに基づく言語モデルがオブジェクト関係に関する知識を抽出するのにどの程度役立つかを検討する。
異なる類似度尺度と組み合わせたモデルが,抽出できる知識の量で大きく異なることを示す。
驚くべきことに、静的モデルは、コンテキスト化されたモデルと同様に、ほぼ同じようにパフォーマンスします。
論文 参考訳(メタデータ) (2022-04-12T10:00:20Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z) - Verifying Individual Fairness in Machine Learning Models [4.29921861868687]
我々は、構造化されたデータを扱う決定モデルが、個別の公平性を持つかどうかという問題を考察する。
我々の目的は、与えられたモデルの個々人の公正性を証明するための検証器を構築することである。
論文 参考訳(メタデータ) (2020-06-21T08:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。