論文の概要: Self-Consistency of Large Language Models under Ambiguity
- arxiv url: http://arxiv.org/abs/2310.13439v1
- Date: Fri, 20 Oct 2023 11:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 23:04:09.284604
- Title: Self-Consistency of Large Language Models under Ambiguity
- Title(参考訳): 曖昧性下における大規模言語モデルの自己一貫性
- Authors: Henning Bartsch, Ole Jorgensen, Domenic Rosati, Jason
Hoelscher-Obermaier, Jacob Pfau
- Abstract要約: 本研究は,不特定の場合の自己整合性評価ベンチマークを示す。
あいまいな整数列補完タスクを用いて,OpenAIモデルスイート上で一連の動作実験を行う。
平均一貫性は67%から82%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高い。
- 参考スコア(独自算出の注目度): 4.141513298907867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) that do not give consistent answers across
contexts are problematic when used for tasks with expectations of consistency,
e.g., question-answering, explanations, etc. Our work presents an evaluation
benchmark for self-consistency in cases of under-specification where two or
more answers can be correct. We conduct a series of behavioral experiments on
the OpenAI model suite using an ambiguous integer sequence completion task. We
find that average consistency ranges from 67\% to 82\%, far higher than would
be predicted if a model's consistency was random, and increases as model
capability improves. Furthermore, we show that models tend to maintain
self-consistency across a series of robustness checks, including prompting
speaker changes and sequence length changes. These results suggest that
self-consistency arises as an emergent capability without specifically training
for it. Despite this, we find that models are uncalibrated when judging their
own consistency, with models displaying both over- and under-confidence. We
also propose a nonparametric test for determining from token output
distribution whether a model assigns non-trivial probability to alternative
answers. Using this test, we find that despite increases in self-consistency,
models usually place significant weight on alternative, inconsistent answers.
This distribution of probability mass provides evidence that even highly
self-consistent models internally compute multiple possible responses.
- Abstract(参考訳): コンテキスト間で一貫した回答を提供しない大規模言語モデル(llm)は、一貫性を期待するタスク(例えば、質問応答、説明など)に使用する場合、問題となる。
本研究では,2つ以上の回答が正しい場合の自己整合性評価ベンチマークを提案する。
我々は,あいまいな整数列補完タスクを用いて,openaiモデルスイート上で一連の行動実験を行う。
平均一貫性は67\%から82\%の範囲であり、モデルの一貫性がランダムであれば予測されるよりもはるかに高く、モデル能力が向上するにつれて増加する。
さらに,モデルでは,話者の変化やシーケンス長の変化など,一連の堅牢性チェックを通じて自己整合性を維持する傾向にあることを示す。
これらの結果から, 自己整合性は, 具体的訓練を伴わずに創発的能力として生じることが示唆された。
それにもかかわらず、モデル自体の一貫性を判断する際には、モデルに過度と過度の信頼の両方が示されることがわかりました。
また,モデルが非自明な確率を代替解に割り当てるかどうかをトークン出力分布から判断する非パラメトリックテストを提案する。
このテストを用いて、自己整合性の増加にもかかわらず、モデルは通常、代替的で一貫性のない答えにかなりの重みを置く。
この確率質量の分布は、高い自己整合モデルでさえ内部で複数の可能な応答を計算する証拠を与える。
関連論文リスト
- Independence Tests for Language Models [47.0749292650885]
2つのモデルの重みを考えると、独立してトレーニングされたかどうかテストできますか?
制約付きと制約なしの2つの設定を検討します。
本稿では,2つのモデル間の隠れアクティベーションに一致し,逆変換やモデルアーキテクチャの変更に対して堅牢な新しいテストを提案する。
論文 参考訳(メタデータ) (2025-02-17T20:01:08Z) - DiverseAgentEntropy: Quantifying Black-Box LLM Uncertainty through Diverse Perspectives and Multi-Agent Interaction [53.803276766404494]
モデルの不確実性を評価する既存の手法は、元のクエリに対する自己整合性を評価することで、必ずしも真の不確実性を把握するわけではない。
マルチエージェントインタラクションを用いたモデルの不確実性評価のための新しい手法であるDiverseAgentEntropyを提案する。
提案手法は,モデルの信頼性をより正確に予測し,さらに幻覚を検知し,他の自己整合性に基づく手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-12T18:52:40Z) - CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Uncertainty-aware Language Modeling for Selective Question Answering [107.47864420630923]
本稿では,不確実性を考慮したLLMを生成するLLM変換手法を提案する。
我々のアプローチはモデルとデータに依存しず、計算効率が高く、外部モデルやシステムに依存しない。
論文 参考訳(メタデータ) (2023-11-26T22:47:54Z) - Calibrating Likelihoods towards Consistency in Summarization Models [22.023863165579602]
このような振る舞いの主な理由は、最大極大目標で訓練された要約モデルが、文脈が与えられた有理系列に高い確率を割り当てることである。
本研究では、自然言語推論(NLI)モデルにより測定された一貫性の測定値と整合性を高めるために、モデル生成シーケンスの可能性を校正することで、この問題を解決する。
論文 参考訳(メタデータ) (2023-10-12T23:17:56Z) - Two Failures of Self-Consistency in the Multi-Step Reasoning of LLMs [78.31625291513589]
自己整合性は、解が複数のサブステップに対する解からなるタスクにおいて、有効な多段階推論の重要な基準であると主張する。
仮説的整合性と構成的整合性という,多段階推論において特に重要である2種類の自己整合性を提案する。
GPT-3/4モデルの複数変種は,多種多様なタスクにおける両タイプの整合性に不整合性を示すことを示した。
論文 参考訳(メタデータ) (2023-05-23T17:25:59Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Sharing pattern submodels for prediction with missing values [12.981974894538668]
機械学習の多くのアプリケーションでは欠落値は避けられず、トレーニング中もテスト時にも課題が提示される。
パターンサブモデル(パターンサブモデル)と呼ばれる別の手法を提案する。これは、テスト時に欠落した値に対して、予測を堅牢にし、パターンサブモデルの予測力を維持または改善させる。
論文 参考訳(メタデータ) (2022-06-22T15:09:40Z) - Anomaly Detection of Time Series with Smoothness-Inducing Sequential
Variational Auto-Encoder [59.69303945834122]
Smoothness-Inducing Sequential Variational Auto-Encoder (SISVAE) モデルを提案する。
我々のモデルは、フレキシブルニューラルネットワークを用いて各タイムスタンプの平均と分散をパラメータ化する。
合成データセットと公開実世界のベンチマークの両方において,本モデルの有効性を示す。
論文 参考訳(メタデータ) (2021-02-02T06:15:15Z) - Wisdom of the Ensemble: Improving Consistency of Deep Learning Models [11.230300336108018]
信頼はしばしば一定の行動の関数である。
本稿では,配備モデルの周期的再学習の文脈におけるモデル挙動について検討する。
アンサンブル学習者の整合性と整合性は,個々の学習者の平均整合性と整合性に劣らないことを示す。
論文 参考訳(メタデータ) (2020-11-13T07:47:01Z) - On the Discrepancy between Density Estimation and Sequence Generation [92.70116082182076]
log-likelihoodは、同じファミリー内のモデルを考えるとき、BLEUと非常に相関している。
異なる家族間でのモデルランキングの相関はみられない。
論文 参考訳(メタデータ) (2020-02-17T20:13:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。