論文の概要: On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms
- arxiv url: http://arxiv.org/abs/2208.11981v2
- Date: Tue, 9 May 2023 12:36:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 16:34:13.163532
- Title: On Reality and the Limits of Language Data: Aligning LLMs with Human
Norms
- Title(参考訳): 言語データの現実性と限界--LLMと人間ノルムの整合性について
- Authors: Nigel H. Collier, Fangyu Liu and Ehsan Shareghi
- Abstract要約: 大規模言語モデル (LLMs) は、実践的な応用のために、膨大な自然言語データの言語関連性を利用する。
我々は,この問題を,新規かつ厳密に制御された推論テスト(ART)を用いて探求し,人間の規範とGPT-3のバージョンを比較した。
我々の研究は、データや弱点から直接学習できる常識関係モデルのカテゴリに注目した。
- 参考スコア(独自算出の注目度): 10.02997544238235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in Large Language Models (LLMs) harness linguistic
associations in vast natural language data for practical applications. However,
their ability to understand the physical world using only language data remains
a question. After reviewing existing protocols, we explore this question using
a novel and tightly controlled reasoning test (ART) and compare human norms
against versions of GPT-3. Our findings highlight the categories of
common-sense relations models that could learn directly from data and areas of
weakness. GPT-3 offers evidence for verbal reasoning on a par with human
subjects for several relations including Synonymy, Antonymy, and Default
inheritance, Without reinforcement learning from human judgements, it appears
GPT-3 performs at the lower end of the reference interval for Has-part and
Contained-in. Weaknesses were observed also in affordance characteristics
through Necessary-quality, Order-of-size and Order-of-intensity. Combining LLMs
with symbolic world grounding is a promising direction to address associative
learning.
- Abstract(参考訳): 大規模言語モデル(llms)の最近の進歩は、膨大な自然言語データの言語関連を実用的応用に活用している。
しかし、言語データのみを用いて物理世界を理解する能力には疑問が残る。
既存のプロトコルをレビューした後、新しい厳密に制御された推論テスト(ART)を用いてこの問題を調査し、人間の規範とGPT-3のバージョンを比較した。
本研究は,データや弱点領域から直接学習できる共通感覚関係モデルのカテゴリに注目した。
GPT-3は、Synonymy、Anthonymy、Deefaultの継承を含むいくつかの関係において、人間の判断からの強化学習がなければ、Has-partとContained-inの基準区間の下位でGPT-3が実行されていることを示す証拠を提供する。
また, 必要な品質, サイズ, 強度の順応により, 余裕特性にも弱点が見られた。
LLMと象徴的世界接地を組み合わせることは、連想学習に取り組む上で有望な方向である。
関連論文リスト
- Mitigating Biases to Embrace Diversity: A Comprehensive Annotation Benchmark for Toxic Language [0.0]
本研究では、人文科学研究に基礎を置く規範的ベンチマークを導入し、攻撃的言語の一貫性のないラベル付けを確実にする。
我々は、人間と言語モデル(LLM)アノテーションのアノテーション間のより高いアノテータ合意を達成するために、2つの新しいアノテートデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2024-10-17T08:10:24Z) - From Babbling to Fluency: Evaluating the Evolution of Language Models in Terms of Human Language Acquisition [6.617999710257379]
本稿では,LMの能力を評価するための3段階のフレームワークを提案する。
言語研究の手法を用いて, LMの生成能力を評価する。
論文 参考訳(メタデータ) (2024-10-17T06:31:49Z) - One Language, Many Gaps: Evaluating Dialect Fairness and Robustness of Large Language Models in Reasoning Tasks [55.35278531907263]
本稿では,大言語モデルの公平性と頑健性に関する最初の研究を標準的推論タスクにおける方言に提示する。
我々は、HumanEvalやGSM8Kといった7つの人気のあるベンチマークを書き換えるために、AAVEスピーカーを採用。
標準英語と比較して、これらの広く使われているモデルのほとんどは、AAVEのクエリに対して重大な脆さと不公平さを示している。
論文 参考訳(メタデータ) (2024-10-14T18:44:23Z) - Evaluating Neural Language Models as Cognitive Models of Language
Acquisition [4.779196219827507]
我々は、ニューラルネットワークモデルの構文能力を評価するための最も顕著なベンチマークは、十分に厳密でないかもしれないと論じる。
小規模データモデリングによる子言語習得を訓練すると、LMは単純なベースラインモデルで容易にマッチングできる。
子どもの言語習得に関する実証的研究と、LMをよりよく結びつけるための提案をまとめて締めくくった。
論文 参考訳(メタデータ) (2023-10-31T00:16:17Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z) - Can LLMs Capture Human Preferences? [5.683832910692926]
本研究では,人間の調査回答をエミュレートし,好みを提示する上で,Large Language Models (LLMs) の生存可能性について検討する。
我々はLLMからの反応を様々な言語で比較し、それらを人間の反応と比較し、より小さく、より早く、より大きい、後の報酬の間の好みを探求する。
以上の結果より, GPT-3.5はヒトの意思決定者とは異なり, 早期の報酬に対するレキソグラフィな嗜好を示し, GPT-3.5はヒトよりも忍耐力が低いことが示唆された。
論文 参考訳(メタデータ) (2023-05-04T03:51:31Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Few-shot Named Entity Recognition with Cloze Questions [3.561183926088611]
本稿では,クローゼクエスト機構とファインチューニングを併用した数ショット学習手法であるPET(Pattern-Exploiting Training)の簡易かつ直感的な適応を提案する。
提案手法は,他の数発のベースラインに対して,標準的な微調整や同等あるいは改良された結果よりもはるかに優れた性能を実現する。
論文 参考訳(メタデータ) (2021-11-24T11:08:59Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。