Fugu-MT 論文翻訳(概要): LLMs and the Madness of Crowds

論文の概要: LLMs and the Madness of Crowds

arxiv url: http://arxiv.org/abs/2411.01539v1
Date: Sun, 03 Nov 2024 12:03:12 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.819327
Title: LLMs and the Madness of Crowds
Title（参考訳）: LLMと群衆のマッドネス
Authors: William F. Bradley,
Abstract要約: 本研究では,大規模言語モデル(LLM)が生成する誤答のパターンを,評価中に解析する。その結果, 誤応答はランダムに分布せず, モデル間で系統的に相関していることがわかった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: We investigate the patterns of incorrect answers produced by large language models (LLMs) during evaluation. These errors exhibit highly non-intuitive behaviors unique to each model. By analyzing these patterns, we measure the similarities between LLMs and construct a taxonomy that categorizes them based on their error correlations. Our findings reveal that the incorrect responses are not randomly distributed but systematically correlated across models, providing new insights into the underlying structures and relationships among LLMs.
Abstract（参考訳）: 本研究では,大規模言語モデル(LLM)による評価における誤答のパターンについて検討する。これらの誤りは、各モデルに特有の非常に非直観的な振る舞いを示す。これらのパターンを解析することにより、LLM間の類似度を測定し、それらの誤差相関に基づいて分類する分類法を構築する。その結果, 誤応答はモデル間でランダムに分布せず, 系統的に相関していることが明らかとなり, LLM間の構造と関係性について新たな知見が得られた。

関連論文リスト

Analysing Moral Bias in Finetuned LLMs through Mechanistic Interpretability [0.7710436567988378]
大型言語モデル(LLM)は、微調整中に人間のようなバイアスを内部化する。意図性における道徳的バイアスであるノベ効果は、微調整されたLLMに現れる。対応する事前訓練されたモデルからのアクティベーションをいくつかの重要なレイヤにパッチすることは、その効果を排除するのに十分です。
論文参考訳（メタデータ） (2025-10-14T07:31:29Z)
Correlated Errors in Large Language Models [0.6856888934092934]
リーダーボードデータセットのモデルエラーには,かなりの相関関係がある。共有アーキテクチャやプロバイダを含むモデル相関を駆動する要因を特定します。 LLM-as-judge 評価と雇用という2つの下流課題における相関の効果を示す。
論文参考訳（メタデータ） (2025-06-09T17:37:18Z)
ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。 ExpliCa上で7つの商用およびオープンソース LLM をテストしました。驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文参考訳（メタデータ） (2025-02-21T14:23:14Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Will LLMs Replace the Encoder-Only Models in Temporal Relation Classification? [2.1861408994125253]
大規模言語モデル(LLM)は、最近、時間的推論タスクで有望なパフォーマンスを示した。最近の研究は、閉ソースモデルのみの時間的関係を検出するためにLLMの性能を検証している。
論文参考訳（メタデータ） (2024-10-14T13:10:45Z)
Investigating the Impact of Model Complexity in Large Language Models [3.7919508292745676]
事前訓練された微調整パラダイムに基づく大規模言語モデル(LLM)は、自然言語処理タスクの解決において重要な役割を担っている。本稿では,自己回帰 LLM に着目し,HMM (Hidden Markov Models) を用いたモデリングを提案する。
論文参考訳（メタデータ） (2024-10-01T13:53:44Z)
MM-SpuBench: Towards Better Understanding of Spurious Biases in Multimodal LLMs [38.93090238335506]
非意味な入力属性と予測対象変数の急激な相関を利用する傾向にあるスパースバイアスは、単一のモダリティデータに基づいて訓練されたディープラーニングモデルに深刻な落とし穴があることを明らかにした。本稿では,9つの異なる相関関係のカテゴリに対するMLLMの信頼度を評価するために,包括的視覚質問応答(VQA)ベンチマークであるMM-SpuBenchを紹介する。以上の結果から,これらのモデルからの素因相関への依存の持続性を明らかにし,素因バイアスを緩和する新たな手法の必要性を浮き彫りにした。
論文参考訳（メタデータ） (2024-06-24T20:29:16Z)
Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文参考訳（メタデータ） (2024-06-05T16:35:30Z)
Evaluating Consistency and Reasoning Capabilities of Large Language Models [0.0]
大規模言語モデル(LLM)は現在、学術、研究、ビジネス、金融など様々な分野で広く使われている。広く採用されているにもかかわらず、これらのモデルはしばしば誤った誤解を招く情報を生み出し、幻覚の傾向を示す。本稿では,パブリックおよびプロプライエタリLLMの整合性と推論能力を評価・比較することを目的とする。
論文参考訳（メタデータ） (2024-04-25T10:03:14Z)
Spurious Correlations and Where to Find Them [17.1264393170134]
モデルがデータから信頼できない特徴を学習すると、余計な相関が生じる。突発的相関の発生の背後にある、よく研究されている仮説のいくつかを収集する。因果グラフから生成された合成データセットを用いた標準ERMベースラインへの影響について検討する。
論文参考訳（メタデータ） (2023-08-21T21:06:36Z)
How robust are pre-trained models to distribution shift? [82.08946007821184]
自己教師付き学習(SSL)と自己エンコーダベースモデル(AE)の相互関係が相互関係に与える影響を示す。本研究では, 線形ヘッドの潜在バイアスから事前学習したモデルの性能を分離するために, アウト・オブ・ディストリビューション(OOD)データに基づいて訓練された線形ヘッドを用いた新しい評価手法を開発した。
論文参考訳（メタデータ） (2022-06-17T16:18:28Z)
Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文参考訳（メタデータ） (2021-06-07T17:47:16Z)
Accounting for Unobserved Confounding in Domain Generalization [107.0464488046289]
本稿では,データセットの組み合わせから頑健で一般化可能な予測モデルを学習する際の問題点について検討する。堅牢なモデルを学ぶことの課題の一部は、保存されていない共同設立者の影響にある。異なるモダリティの医療データに対するアプローチの実証的性能を実証する。
論文参考訳（メタデータ） (2020-07-21T08:18:06Z)
Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文参考訳（メタデータ） (2020-06-22T21:12:31Z)
On Disentangled Representations Learned From Correlated Data [59.41587388303554]
相関データに対する最も顕著な絡み合うアプローチの挙動を解析することにより、現実のシナリオにギャップを埋める。本研究では,データセットの体系的相関が学習され,潜在表現に反映されていることを示す。また、トレーニング中の弱い監督や、少数のラベルで事前訓練されたモデルを修正することで、これらの潜伏相関を解消する方法を実証する。
論文参考訳（メタデータ） (2020-06-14T12:47:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。