論文の概要: Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks
- arxiv url: http://arxiv.org/abs/2205.05718v1
- Date: Wed, 11 May 2022 18:14:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 05:14:40.517353
- Title: Structured, flexible, and robust: benchmarking and improving large
language models towards more human-like behavior in out-of-distribution
reasoning tasks
- Title(参考訳): 構造化、フレキシブル、ロバスト:分散推論タスクにおける人間のような振る舞いに向けた大規模言語モデルのベンチマークと改善
- Authors: Katherine M. Collins, Catherine Wong, Jiahai Feng, Megan Wei, and
Joshua B. Tenenbaum
- Abstract要約: 言語単独で統計的パターンを学習することで、どの程度の人間的な思考を捉えることができるのかを問う。
本ベンチマークは2つの問題解決領域(計画と説明生成)を含み,一般化を必要とするように設計されている。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
- 参考スコア(独自算出の注目度): 39.39138995087475
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human language offers a powerful window into our thoughts -- we tell stories,
give explanations, and express our beliefs and goals through words. Abundant
evidence also suggests that language plays a developmental role in structuring
our learning. Here, we ask: how much of human-like thinking can be captured by
learning statistical patterns in language alone? We first contribute a new
challenge benchmark for comparing humans and distributional large language
models (LLMs). Our benchmark contains two problem-solving domains (planning and
explanation generation) and is designed to require generalization to new,
out-of-distribution problems expressed in language. We find that humans are far
more robust than LLMs on this benchmark. Next, we propose a hybrid
Parse-and-Solve model, which augments distributional LLMs with a structured
symbolic reasoning module. We find that this model shows more robust adaptation
to out-of-distribution planning problems, demonstrating the promise of hybrid
AI models for more human-like reasoning.
- Abstract(参考訳): 私たちは物語を語り、説明し、言葉を通じて私たちの信念と目標を表現します。
明らかな証拠は、言語が学習の構造化に発達的な役割を担っていることを示唆している。
言語だけで統計パターンを学習することで、人間のような思考のどれ程を捉えることができるのか?
我々はまず,人間と分布型大言語モデル(LLM)を比較するための新しい課題ベンチマークを提出する。
本ベンチマークは,2つの問題解決領域(計画と説明生成)を含み,言語で表現された新たな分散問題への一般化が要求される。
このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。
次に、構造的シンボリック推論モジュールで分散LLMを増強するハイブリッドParse-and-Solveモデルを提案する。
このモデルは配布外計画問題への堅牢な適応を示し、人間的な推論のためのハイブリッドAIモデルの可能性を実証している。
関連論文リスト
- From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - A Sentence is Worth a Thousand Pictures: Can Large Language Models Understand Hum4n L4ngu4ge and the W0rld behind W0rds? [2.7342737448775534]
LLM(Large Language Models)は、人間の言語的パフォーマンスに関する主張と関連付けられている。
対象認知システムの理論的に有意な表現としてLLMの寄与を分析する。
我々は,より高い処理レベルからのトップダウンフィードバックを通じて,モデルが全体像を見る能力を評価する。
論文 参考訳(メタデータ) (2023-07-26T18:58:53Z) - From Word Models to World Models: Translating from Natural Language to
the Probabilistic Language of Thought [124.40905824051079]
言語インフォームド・シンキングのための計算フレームワークである「構成」を合理的に提案する。
我々は、自然言語から確率論的思考言語への文脈感応的なマッピングとして、言語の意味を定式化する。
LLMは、現実的に適切な言語的意味をキャプチャする文脈依存翻訳を生成することができることを示す。
認知的なモチベーションを持つシンボリックモジュールを統合するために、我々のフレームワークを拡張します。
論文 参考訳(メタデータ) (2023-06-22T05:14:00Z) - A Survey of Large Language Models [81.06947636926638]
言語モデリングは、過去20年間、言語理解と生成のために広く研究されてきた。
近年,大規模コーパス上でのトランスフォーマーモデルの事前学習により,事前学習言語モデル (PLM) が提案されている。
パラメータスケールの違いを識別するために、研究コミュニティは大規模言語モデル (LLM) という用語を提唱した。
論文 参考訳(メタデータ) (2023-03-31T17:28:46Z) - Chain of Hindsight Aligns Language Models with Feedback [62.68665658130472]
我々は,その極性に関係なく,任意の形式のフィードバックから学習し,最適化が容易な新しい手法であるChain of Hindsightを提案する。
我々は、あらゆる種類のフィードバックを文のシーケンスに変換し、それをモデルを微調整するために使用する。
そうすることで、モデルはフィードバックに基づいて出力を生成するように訓練され、負の属性やエラーを特定し修正する。
論文 参考訳(メタデータ) (2023-02-06T10:28:16Z) - Psychologically-informed chain-of-thought prompts for metaphor
understanding in large language models [29.993190226231793]
我々はチェーン・オブ・シント・プロンプトを使って確率モデルから大きな言語モデルに構造を導入する。
我々のプロンプトは、メタファーの適切なパラフレーズを選択するために、言語モデルに潜伏変数を推論し、それらの関係を推論する。
論文 参考訳(メタデータ) (2022-09-16T19:23:13Z) - Chain of Thought Prompting Elicits Reasoning in Large Language Models [56.811278668446825]
本稿では,コヒーレントな思考連鎖を生成する言語モデルについて考察する。
実験により、プロンプトによって思考の連鎖を誘導することで、十分な大きな言語モデルが推論タスクをよりよく実行できるようになることが示されている。
論文 参考訳(メタデータ) (2022-01-28T02:33:07Z) - Few-Shot Self-Rationalization with Natural Language Prompts [29.23404535276466]
タスクラベルを予測するセルフリレーゼーションモデルは、その予測のために自由テキストのエラボレートを生成する。
しかしながら、これらのモデルは、現在、タスクごとに大量の人書き自由テキスト説明で訓練されている。
少ない学習例を用いて,より現実的な自己合理化環境について検討することを提案する。
論文 参考訳(メタデータ) (2021-11-16T08:21:40Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。