論文の概要: Red Teaming for Large Language Models At Scale: Tackling Hallucinations
on Mathematics Tasks
- arxiv url: http://arxiv.org/abs/2401.00290v1
- Date: Sat, 30 Dec 2023 17:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:07:04.469362
- Title: Red Teaming for Large Language Models At Scale: Tackling Hallucinations
on Mathematics Tasks
- Title(参考訳): 大規模言語モデルのためのレッドチーム:数学の課題に対する幻覚に対処する
- Authors: Aleksander Buszydlik, Karol Dobiczek, Micha{\l} Teodor Oko\'n, Konrad
Skublicki, Philip Lippmann, Jie Yang
- Abstract要約: 本稿では,数値的な質問やパズルを手続き的に生成する枠組みを提案する。
結果といくつかのレッドチーム技術の適用の有無を比較した。
- 参考スコア(独自算出の注目度): 42.67360564130172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the problem of red teaming LLMs on elementary calculations and
algebraic tasks to evaluate how various prompting techniques affect the quality
of outputs. We present a framework to procedurally generate numerical questions
and puzzles, and compare the results with and without the application of
several red teaming techniques. Our findings suggest that even though
structured reasoning and providing worked-out examples slow down the
deterioration of the quality of answers, the gpt-3.5-turbo and gpt-4 models are
not well suited for elementary calculations and reasoning tasks, also when
being red teamed.
- Abstract(参考訳): 基礎計算と代数的タスクにおいて,レッドチームによるllmの課題を検討し,様々なプロンプト手法がアウトプットの質にどのように影響するかを評価する。
数値問題やパズルを手続き的に生成する枠組みを提案し,いくつかのレッドチーム技術を適用した結果と比較する。
この結果から, 構造化推論と実例提供は回答の質の劣化を遅くするが, gpt-3.5-turbo モデルと gpt-4 モデルは初等計算や推論作業には適していないことが示唆された。
関連論文リスト
- Investigating Symbolic Capabilities of Large Language Models [16.88906206735967]
本研究の目的は,一連の記号的タスクにおいて,LLM(Large Language Models)を厳格に評価することにより,ギャップを埋めることである。
我々の分析では、エンタープライズグレードの4つのモデルとオープンソースの4つのモデルを含む8つのLCMを含み、そのうち3つは数学的なタスクで事前訓練されている。
その結果,記号数で表される複雑性が増大するにつれて,LLMの文脈自由かつ文脈依存的な記号処理における性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-21T21:24:34Z) - Limits of Transformer Language Models on Learning to Compose Algorithms [77.2443883991608]
我々は,LLaMAモデルのトレーニングと,複数の個別サブタスクの合成学習を必要とする4つのタスクにおけるGPT-4とGeminiの促進について検討した。
その結果,現在最先端のTransformer言語モデルにおける構成学習は,非常に非効率なサンプルであることが示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:23:29Z) - Towards Truly Zero-shot Compositional Visual Reasoning with LLMs as Programmers [54.83459025465947]
最大のモデルでさえ、構成的推論、一般化、きめ細かい空間的および時間的推論、数え上げに苦しむ。
コントローラとしての大きな言語モデル(LLM)による視覚的推論は、原則として、タスクを分解し、一連の(視覚的な)ツールを編成することでサブタスクを解決することで、これらの制限に対処することができる。
本稿では,空間的・時間的に抽象的なルーチンを導入し,少数のラベル付き例を利用してコンテキスト内サンプルを自動的に生成することにより,これらの問題を緩和するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-03T20:48:47Z) - Large Language Models as Analogical Reasoners [155.9617224350088]
CoT(Chain-of- Thought)は、言語モデルのプロンプトとして、推論タスク全体で素晴らしいパフォーマンスを示す。
そこで本稿では,大規模言語モデルの推論プロセスを自動的にガイドする,新たなプロンプト手法であるアナログプロンプトを導入する。
論文 参考訳(メタデータ) (2023-10-03T00:57:26Z) - Faith and Fate: Limits of Transformers on Compositionality [109.79516190693415]
3つの代表的構成課題にまたがる変圧器大言語モデルの限界について検討する。
これらのタスクは、問題をサブステップに分割し、これらのステップを正確な答えに合成する必要があります。
実験結果から,多段階合成推論を線形化部分グラフマッチングに還元することにより,トランスフォーマーLLMが構成課題を解くことが示唆された。
論文 参考訳(メタデータ) (2023-05-29T23:24:14Z) - Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors,
and Lessons Learned [10.836210010868932]
3つのモデルサイズ(2.7B, 13B, 52Bパラメータ)と4つのモデルタイプにまたがるレッド・チームリングのスケーリング挙動について検討した。
私たちは38,961人のレッドチームによる攻撃のデータセットをリリースし、他者が分析し、そこから学びます。
論文 参考訳(メタデータ) (2022-08-23T23:37:14Z) - NumGLUE: A Suite of Fundamental yet Challenging Mathematical Reasoning
Tasks [37.730939229638224]
8つのタスクでAIシステムの性能を評価するベンチマークであるNumGLUEを提案する。
このベンチマークは、最先端の大規模言語モデルを含むニューラルモデルで解決されるには程遠い。
我々はNumGLUEが言語内で堅牢で一般的な算術推論を行うシステムを促進することを願っている。
論文 参考訳(メタデータ) (2022-04-12T09:36:10Z) - Machine Number Sense: A Dataset of Visual Arithmetic Problems for
Abstract and Relational Reasoning [95.18337034090648]
文法モデルを用いて自動生成される視覚的算術問題からなるデータセット、MNS(Machine Number Sense)を提案する。
これらの視覚的算術問題は幾何学的フィギュアの形をしている。
我々は、この視覚的推論タスクのベースラインとして、4つの主要なニューラルネットワークモデルを用いて、MNSデータセットをベンチマークする。
論文 参考訳(メタデータ) (2020-04-25T17:14:58Z) - iNALU: Improved Neural Arithmetic Logic Unit [2.331160520377439]
最近提案されたNeural Arithmetic Logic Unit (NALU)は、ネットワークのユニットによって数学的関係を明確に表現し、和、減算、乗算などの操作を学ぶことができる新しいニューラルネットワークである。
本稿では,本モデルが安定性の問題を解き,算術精度と収束性により元のNALUモデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-03-17T10:37:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。