論文の概要: Comparing Abstraction in Humans and Large Language Models Using
Multimodal Serial Reproduction
- arxiv url: http://arxiv.org/abs/2402.03618v1
- Date: Tue, 6 Feb 2024 01:07:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-07 17:24:31.493930
- Title: Comparing Abstraction in Humans and Large Language Models Using
Multimodal Serial Reproduction
- Title(参考訳): マルチモーダルシリアル再生を用いた人・大言語モデルの抽象化の比較
- Authors: Sreejan Kumar, Raja Marjieh, Byron Zhang, Declan Campbell, Michael Y.
Hu, Umang Bhatt, Brenden Lake, Thomas L. Griffiths
- Abstract要約: 本研究では,視覚刺激を受けた人に言語形式で再生するよう依頼することで,新たなシリアル再生フレームワークを実装した。
モダリティとしての言語の追加は,GPT-4よりもヒトの生殖に大きな影響を及ぼすことがわかった。
- 参考スコア(独自算出の注目度): 14.71596837003067
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans extract useful abstractions of the world from noisy sensory data.
Serial reproduction allows us to study how people construe the world through a
paradigm similar to the game of telephone, where one person observes a stimulus
and reproduces it for the next to form a chain of reproductions. Past serial
reproduction experiments typically employ a single sensory modality, but humans
often communicate abstractions of the world to each other through language. To
investigate the effect language on the formation of abstractions, we implement
a novel multimodal serial reproduction framework by asking people who receive a
visual stimulus to reproduce it in a linguistic format, and vice versa. We ran
unimodal and multimodal chains with both humans and GPT-4 and find that adding
language as a modality has a larger effect on human reproductions than GPT-4's.
This suggests human visual and linguistic representations are more dissociable
than those of GPT-4.
- Abstract(参考訳): 人間は騒がしい感覚データから世界の有用な抽象概念を抽出する。
連続的な再現は、ある人が刺激を観察し、次にそれを再現して再生の連鎖を形成するという、電話ゲームに似たパラダイムを通じて、人々がどのように世界を実現するかを研究できる。
過去の連続再生実験は、通常、単一の感覚的モダリティを用いるが、人間はしばしば言語を通して世界の抽象を互いに伝達する。
抽象概念形成における効果言語の検討のために,視覚刺激を受けた人に言語形式で再現するよう依頼し,その逆で,新しいマルチモーダル・シリアル再生フレームワークを実装した。
ヒトとGPT-4の双方で一本鎖と多本鎖を走らせ,言語をモダリティとして加えると,GPT-4よりもヒトの生殖に大きな影響を及ぼすことがわかった。
これは、人間の視覚的および言語的表現がGPT-4よりも解離しやすいことを示唆している。
関連論文リスト
- Analyzing The Language of Visual Tokens [48.62180485759458]
我々は、離散的な視覚言語を分析するために、自然言語中心のアプローチをとる。
トークンの高度化はエントロピーの増大と圧縮の低下を招き,トークンが主にオブジェクト部品を表すことを示す。
また、視覚言語には結合的な文法構造が欠如していることが示され、自然言語と比較して難易度が高く、階層構造が弱いことが判明した。
論文 参考訳(メタデータ) (2024-11-07T18:59:28Z) - Human vs. LMMs: Exploring the Discrepancy in Emoji Interpretation and Usage in Digital Communication [68.40865217231695]
本研究は,ヒト型絵文字の複製におけるGPT-4Vの挙動について検討した。
この結果は、人間の解釈の主観的な性質から、人間とGPT-4Vの行動に明確な相違があることを示唆している。
論文 参考訳(メタデータ) (2024-01-16T08:56:52Z) - Structural Priming Demonstrates Abstract Grammatical Representations in
Multilingual Language Models [6.845954748361076]
我々は,大言語モデルにおける抽象単言語および多言語文法表現の証拠を見出した。
その結果、多言語言語モデルにおける文法表現は言語間で類似しているだけでなく、異なる言語で生成されたテキストに因果的に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2023-11-15T18:39:56Z) - Visual Grounding Helps Learn Word Meanings in Low-Data Regimes [47.7950860342515]
現代のニューラル言語モデル(LM)は、人間の文の生成と理解をモデル化するための強力なツールである。
しかし、これらの結果を得るためには、LMは明らかに非人間的な方法で訓練されなければならない。
より自然主義的に訓練されたモデルは、より人間らしい言語学習を示すのか?
本稿では,言語習得における重要なサブタスクである単語学習の文脈において,この問題を考察する。
論文 参考訳(メタデータ) (2023-10-20T03:33:36Z) - IRFL: Image Recognition of Figurative Language [20.472997304393413]
図形は、しばしば複数のモダリティ(例えば、テキストと画像の両方)を通して伝達される。
我々は、図形言語データセットの画像認識を開発する。
マルチモーダルな図形言語理解のためのベンチマークとして,2つの新しいタスクを導入する。
論文 参考訳(メタデータ) (2023-03-27T17:59:55Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Large language models predict human sensory judgments across six
modalities [12.914521751805658]
我々は、現在最先端の大規模言語モデルが、知覚世界を言語から回復する問題に対する新たな洞察を解き放つことができることを示す。
我々は、6つの精神物理学的データセットにわたるGPTモデルからペアワイズ類似性判定を導出する。
これらの判断は, 色輪やピッチスパイラルなどのよく知られた表現を復元し, 全領域にわたる人的データと有意な相関関係を示す。
論文 参考訳(メタデータ) (2023-02-02T18:32:46Z) - Like a bilingual baby: The advantage of visually grounding a bilingual
language model [0.0]
我々は、MS-COCO-ESから英語とスペイン語の画像やキャプションに基づいてLSTM言語モデルを訓練する。
視覚的基盤は、言語内および言語間のセマンティックな類似性に対するモデルの理解を改善し、パープレキシティを改善する。
本研究は,視覚的基盤言語モデルの利点を裏付ける追加の証拠を提供し,多言語話者と知覚的基盤を持つ多言語データセットからのより自然主義的な言語データの必要性を指摘する。
論文 参考訳(メタデータ) (2022-10-11T14:43:26Z) - Out of One, Many: Using Language Models to Simulate Human Samples [3.278541277919869]
このようなツール(GPT-3言語モデル)の「アルゴリズムバイアス」は、粒度と人口統計学的に相関していることを示す。
我々は、実際の人間の参加者から何千もの社会デマトグラフィーのバックストリーにモデルを条件付けることで「シリコンサンプル」を作成します。
論文 参考訳(メタデータ) (2022-09-14T19:53:32Z) - LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example [55.10864476206503]
我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。
その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
論文 参考訳(メタデータ) (2021-10-11T00:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。