論文の概要: Not quite Sherlock Holmes: Language model predictions do not reliably differentiate impossible from improbable events
- arxiv url: http://arxiv.org/abs/2506.06808v1
- Date: Sat, 07 Jun 2025 14:08:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.488777
- Title: Not quite Sherlock Holmes: Language model predictions do not reliably differentiate impossible from improbable events
- Title(参考訳): Sherlock Holmes氏: 言語モデル予測は、不可能なイベントと確実に区別できない
- Authors: James A. Michaelov, Reeka Estacio, Zhien Zhang, Benjamin K. Bergen,
- Abstract要約: 言語モデルがこれを行う能力は、決して堅牢ではないことを示す。
Llama 3 Gemma 2 や Mistral NeMo を含むテストされたすべてのモデルは、より悪くパフォーマンスする。
- 参考スコア(独自算出の注目度): 3.106134974180901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Can language models reliably predict that possible events are more likely than merely improbable ones? By teasing apart possibility, typicality, and contextual relatedness, we show that despite the results of previous work, language models' ability to do this is far from robust. In fact, under certain conditions, all models tested - including Llama 3, Gemma 2, and Mistral NeMo - perform at worse-than-chance level, assigning higher probabilities to impossible sentences such as 'the car was given a parking ticket by the brake' than to merely unlikely sentences such as 'the car was given a parking ticket by the explorer'.
- Abstract(参考訳): 言語モデルは、単に不可能なイベントよりも、起こりうるイベントが可能性が高いことを確実に予測できるだろうか?
可能性、典型性、文脈的関連性を区別することにより、これまでの研究結果にもかかわらず、言語モデルのこのような能力は決して堅牢ではないことを示す。
実際、ある条件下では、Llama 3、Gemma 2、Mistral NeMoを含むテストされた全てのモデルは、"車両はブレーキで駐車券を受け取った"など不可能な文に、単に"車両は探検家によって駐車券を貰った"といったあり得ない文よりも高い確率を割り当てる。
関連論文リスト
- Language Model Probabilities are Not Calibrated in Numeric Contexts [16.17638166383352]
言語モデル(LM)の出力は自然分布を捉えるべきだと我々は主張する。
本研究は、LM出力確率がテキストコンテキスト内の数値情報に校正されるかどうかを特に検証する。
論文 参考訳(メタデータ) (2024-10-21T13:41:15Z) - CONTESTS: a Framework for Consistency Testing of Span Probabilities in Language Models [16.436592723426305]
単語スパンに関節確率を割り当てる異なる方法で、言語モデルが同じ値を生成するかどうかは不明である。
我々の研究はConTestSという新しいフレームワークを導入し、交換可能な完了順序と条件付き順序でスコアの整合性を評価する統計的テストを含む。
論文 参考訳(メタデータ) (2024-09-30T06:24:43Z) - Oddballness: universal anomaly detection with language models [0.5461938536945723]
本手法は,言語モデルによって生成される確率を考察するが,低自由度トークンに焦点をあてるのではなく,この論文で導入された新しい指標である奇数性を考える。
完全に教師なしの設定が仮定された場合, ランダム性は, 単に低次事象を考慮すればよいという文法的誤り検出タスクを示す。
論文 参考訳(メタデータ) (2024-09-04T19:31:20Z) - Does Liking Yellow Imply Driving a School Bus? Semantic Leakage in Language Models [113.58052868898173]
我々は、モデルが予期しない方法でプロンプトから生成元に無関係な情報を漏らす現象を識別し、特徴付けする。
本研究では,人間と自動の両方でセマンティックリークを検出するための評価設定を提案し,その振る舞いを診断するための多様なテストスイートをキュレートし,13のフラッグシップモデルにおいて重要なセマンティックリークを測定する。
論文 参考訳(メタデータ) (2024-08-12T22:30:55Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z) - Reconciling Individual Probability Forecasts [78.0074061846588]
データに同意する2つの当事者は、個々の確率をモデル化する方法に異を唱えることができない。
個々の確率は不可知であるが、計算的かつデータ効率のよいプロセスで競合できると結論付ける。
論文 参考訳(メタデータ) (2022-09-04T20:20:35Z) - Multimodal semantic forecasting based on conditional generation of
future features [0.0]
本稿では,道路走行シーンにおける意味予測について考察する。
既存のほとんどのアプローチでは、この問題を将来の特徴の決定論的回帰や、観測されたフレームの将来の予測として扱う。
本稿では,観測フレーム上に条件付きマルチモーダル生成モデルのサンプリングとして,マルチモーダル予測を定式化する。
論文 参考訳(メタデータ) (2020-10-18T18:59:52Z) - Limits of Detecting Text Generated by Large-Scale Language Models [65.46403462928319]
誤情報キャンペーンで使用される可能性があるため、長く一貫性のあるテキストを生成できる大規模な言語モデルが危険であると考える者もいる。
ここでは、仮説テスト問題として大規模言語モデル出力検出を定式化し、テキストを真あるいは生成されたものと分類する。
論文 参考訳(メタデータ) (2020-02-09T19:53:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。