論文の概要: Can Language Models Be Tricked by Language Illusions? Easier with
Syntax, Harder with Semantics
- arxiv url: http://arxiv.org/abs/2311.01386v2
- Date: Sun, 4 Feb 2024 15:00:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 04:18:04.031486
- Title: Can Language Models Be Tricked by Language Illusions? Easier with
Syntax, Harder with Semantics
- Title(参考訳): 言語モデルは言語錯誤によって引き起こせるか?
構文が簡単で 意味論が難しい
- Authors: Yuhan Zhang, Edward Gibson, Forrest Davis
- Abstract要約: 我々は「言語錯覚」に関連するLMのより微妙な判断について検討する。
比較錯視、深さ電荷錯視、負極性イリュージョン(NPI)という3つの錯覚を考察する。
我々は,人間の言語処理の認知モデルとして,かつ複雑な言語材料において,ニュアンスだが重要な情報を認識する能力において,LMは相対的に制限されていることを示す。
- 参考スコア(独自算出の注目度): 7.759719313292493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) have been argued to overlap substantially with human
beings in grammaticality judgment tasks. But when humans systematically make
errors in language processing, should we expect LMs to behave like cognitive
models of language and mimic human behavior? We answer this question by
investigating LMs' more subtle judgments associated with "language illusions"
-- sentences that are vague in meaning, implausible, or ungrammatical but
receive unexpectedly high acceptability judgments by humans. We looked at three
illusions: the comparative illusion (e.g. "More people have been to Russia than
I have"), the depth-charge illusion (e.g. "No head injury is too trivial to be
ignored"), and the negative polarity item (NPI) illusion (e.g. "The hunter who
no villager believed to be trustworthy will ever shoot a bear"). We found that
probabilities represented by LMs were more likely to align with human judgments
of being "tricked" by the NPI illusion which examines a structural dependency,
compared to the comparative and the depth-charge illusions which require
sophisticated semantic understanding. No single LM or metric yielded results
that are entirely consistent with human behavior. Ultimately, we show that LMs
are limited both in their construal as cognitive models of human language
processing and in their capacity to recognize nuanced but critical information
in complicated language materials.
- Abstract(参考訳): 言語モデル(LM)は文法的判断タスクにおいて人間と大きく重なると議論されている。
しかし、人間が体系的に言語処理の誤りを犯すとき、lmsは言語の認知モデルのように振る舞うことを期待し、人間の行動を模倣すべきだろうか?
我々は、lmsが「言語錯覚」に関連するより微妙な判断を調査することによって、この疑問に答える。
比較錯視(例:「私より多くの人がロシアに行った」)、深度チャージ錯視(例:「頭部の損傷は無視できないほど単純すぎる」)、負極性アイテム(例:「信頼できる村人がいないと信じているハンターが熊を撃つ」)の3つの錯視を調べた。
その結果,ALMで表される確率は,高度な意味理解を必要とする比較と深さ電荷の錯覚と比較して,構造的依存性を調べるNPIイリュージョンによって「複雑化」されるという人間の判断と一致している可能性が示唆された。
人間の行動と完全に一致した単一のLMや測定結果は得られない。
最終的に、LMは人間の言語処理の認知モデルとしてのコントラストと、複雑な言語材料におけるニュアンスだが重要な情報を認識する能力の両方に制限されていることを示す。
関連論文リスト
- Training Language Models on the Knowledge Graph: Insights on Hallucinations and Their Detectability [83.0884072598828]
幻覚は多くの形式があり、普遍的に受け入れられる定義はない。
トレーニングセットにおいて、正しい回答が冗長に現れるような幻覚のみを研究することに集中する。
固定されたデータセットの場合、より大きく長く訓練されたLMは幻覚を少なくする。
固定されたLMの出力の検出器サイズが向上するのに対して、LMのスケールと幻覚の検出可能性との間には逆の関係がある。
論文 参考訳(メタデータ) (2024-08-14T23:34:28Z) - Strong and weak alignment of large language models with human values [1.6590638305972631]
AI(Artificial Intelligent)システムの負の影響を最小限に抑えるには、人間の価値観に合わせる必要がある。
これは、大きな言語モデル(LLM)のようなAIシステムにおいて、人間の価値が浮かび上がるリスクを示す状況を認識するために必要である、と我々は主張する。
そこで我々は,ジョン・サールの有名な提案を拡張して,「単語遷移辞書付き中国語室」と呼ぶ新しい思考実験を提案する。
論文 参考訳(メタデータ) (2024-08-05T11:27:51Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Language in Vivo vs. in Silico: Size Matters but Larger Language Models Still Do Not Comprehend Language on a Par with Humans [1.8434042562191815]
本研究では,人間とモデルの違いがモデルサイズに寄与するかどうかを判断する上で,モデルスケーリングが果たす役割について検討する。
アナフォラ, 中心埋め込み, 比較, 負極性を含む文法判断タスクにおいて, 3つの大言語モデル(LLM)を検証した。
結果,ChatGPT-4の精度は,ChatGPT-4の精度が76%に対して80%であったのに対し,ChatGPT-4の精度は1つのタスク条件,すなわち文法文でのみ優れていた。
論文 参考訳(メタデータ) (2024-04-23T10:09:46Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Roles of Scaling and Instruction Tuning in Language Perception: Model
vs. Human Attention [58.817405319722596]
本研究は,複数の大規模言語モデル (LLM) を異なる大きさで自己意識的に比較し,言語知覚に対するスケーリングと指導指導の効果を評価する。
その結果,スケーリングは人間の類似性を向上し,簡単なパターン依存を減らし,効果的な注意力を高める一方で,命令チューニングは行わないことがわかった。
また、現在のLLMは、注目されているネイティブスピーカーよりも、常に非ネイティブに近づき、全てのモデルの準最適言語知覚が示唆されている。
論文 参考訳(メタデータ) (2023-10-29T17:16:40Z) - Analyzing and Mitigating Object Hallucination in Large Vision-Language Models [110.12460299261531]
大規模視覚言語モデル(LVLM)は、人間の言語で視覚情報を理解する際、顕著な能力を示した。
LVLMは依然として物体幻覚に悩まされており、画像に実際に存在しない物体を含む記述を生成するという問題である。
そこで我々は,LVLMの幻覚を再現するアルゴリズム LVLM Hallucination Revisor (LURE) を提案する。
論文 参考訳(メタデータ) (2023-10-01T18:10:53Z) - Human-Like Intuitive Behavior and Reasoning Biases Emerged in Language
Models -- and Disappeared in GPT-4 [0.0]
大型言語モデル (LLM) は人間の直感に類似した行動を示す。
また、直感的な意思決定の傾向がいかに頑丈かも調べる。
論文 参考訳(メタデータ) (2023-06-13T08:43:13Z) - Large Language Models are In-Context Semantic Reasoners rather than
Symbolic Reasoners [75.85554779782048]
大規模言語モデル(LLM)は、近年、自然言語と機械学習コミュニティを興奮させています。
多くの成功を収めたアプリケーションにもかかわらず、そのようなコンテキスト内機能の基盤となるメカニズムはまだ不明である。
本研究では,学習した言語トークンのテクストセマンティクスが推論過程において最も重い処理を行うと仮定する。
論文 参考訳(メタデータ) (2023-05-24T07:33:34Z) - Thinking Fast and Slow in Large Language Models [0.08057006406834465]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を結び付けるAIシステムの最前線にある。
本研究では, GPT-3 のような LLM は人間の直感に類似した行動を示し,それに伴う認知的誤りを示す。
論文 参考訳(メタデータ) (2022-12-10T05:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。