論文の概要: Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks
- arxiv url: http://arxiv.org/abs/2205.05718v1
- Date: Wed, 11 May 2022 18:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 05:14:40.517353
- Title: Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks
- Title(参考訳): 構造化、フレキシブル、ロバスト:分散推論タスクにおける人間のような振る舞いに向けた大規模言語モデルのベンチマークと改善
- Authors: Katherine M. Collins, Catherine Wong, Jiahai Feng, Megan Wei, and
Joshua B. Tenenbaum
- Abstract要約: 言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
- 参考スコア(独自算出の注目度): 39.39138995087475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human language offers a powerful window into our thoughts -- we tell stories,
give explanations, and express our beliefs and goals through words. Abundant
evidence also suggests that language plays a developmental role in structuring
our learning. Here, we ask: how much of human-like thinking can be captured by
learning statistical patterns in language alone? We first contribute a new
challenge benchmark for comparing humans and distributional large language
models (LLMs). Our benchmark contains two problem-solving domains (planning and
explanation generation) and is designed to require generalization to new,
out-of-distribution problems expressed in language. We find that humans are far
more robust than LLMs on this benchmark. Next, we propose a hybrid
Parse-and-Solve model, which augments distributional LLMs with a structured
symbolic reasoning module. We find that this model shows more robust adaptation
to out-of-distribution planning problems, demonstrating the promise of hybrid
AI models for more human-like reasoning.
- Abstract(参考訳): 私たちは物語を語り、説明し、言葉を通じて私たちの信念と目標を表現します。
明らかな証拠は、言語が学習の構造化に発達的な役割を担っていることを示唆している。
言語だけで統計パターンを学習することで、人間のような思考のどれ程を捉えることができるのか?
我々はまず,人間と分布型大言語モデル(LLM)を比較するための新しい課題ベンチマークを提出する。
本ベンチマークは,2つの問題解決領域(計画と説明生成)を含み,言語で表現された新たな分散問題への一般化が要求される。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
次に、構造的シンボリック推論モジュールで分散LLMを増強するハイブリッドParse-and-Solveモデルを提案する。
このモデルは配布外計画問題への堅牢な適応を示し、人間的な推論のためのハイブリッドAIモデルの可能性を実証している。
- 全文 参考訳へのリンク
関連論文リスト
- Interpreting Language Models with Contrastive Explanations [99.7035899290924]
言語モデルは、音声、数字、時制、意味論など、トークンを予測するための様々な特徴を考慮しなければならない。
既存の説明手法は、これらの特徴の証拠を1つの説明に分割するが、人間の理解には理解できない。
比較的な説明は、主要な文法現象の検証において、非対照的な説明よりも定量的に優れていることを示す。
論文 参考訳(メタデータ) (2022-02-21T18:32:24Z) - Typical Decoding for Natural Language Generation [76.69397802617064]
本稿は,高確率テキストが退屈あるいは反復的である理由について考察する。
典型的なサンプリングでは,品質面での競争性能が期待できる。
論文 参考訳(メタデータ) (2022-02-01T18:58:45Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Language Models are not Models of Language [0.0]
トランスファーラーニングにより、言語モデリングタスクでトレーニングされた大規模なディープラーニングニューラルネットワークにより、パフォーマンスが大幅に向上した。
深層学習モデルは言語の理論的モデルではないので、言語モデルという用語は誤解を招く。
論文 参考訳(メタデータ) (2021-12-13T22:39:46Z) - Scaling Language Models: Methods, Analysis & Insights from Training
Gopher [83.98181046650664]
本稿では,トランスフォーマーに基づく言語モデルの性能を,幅広いモデルスケールで解析する。
スケールからのゲインは、理解、事実確認、有害言語の同定などにおいて最大である。
我々は、AIの安全性と下流の害の軽減に対する言語モデルの適用について論じる。
論文 参考訳(メタデータ) (2021-12-08T19:41:47Z) - Few-Shot Self-Rationalization with Natural Language Prompts [29.23404535276466]
タスクラベルを予測するセルフリレーゼーションモデルは、その予測のために自由テキストのエラボレートを生成する。
しかしながら、これらのモデルは、現在、タスクごとに大量の人書き自由テキスト説明で訓練されている。
少ない学習例を用いて,より現実的な自己合理化環境について検討することを提案する。
論文 参考訳(メタデータ) (2021-11-16T08:21:40Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。