論文の概要: The language of sounds unheard: Exploring musical timbre semantics of
large language models
- arxiv url: http://arxiv.org/abs/2304.07830v3
- Date: Thu, 4 May 2023 10:05:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 18:43:31.250827
- Title: The language of sounds unheard: Exploring musical timbre semantics of
large language models
- Title(参考訳): 聴覚のない音の言語:大規模言語モデルの音韻意味論の探索
- Authors: Kai Siedenburg and Charalampos Saitis
- Abstract要約: 近年の大型言語モデル(LLM)の普及を考えると、そのようなモデルが人間のものと類似した知覚的意味論の組織を示すかどうかを問うた。
異なるチャットで複数の応答を抽出した。
ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、音楽音のよく知られた心理物理学的次元に沿って頑健な一致を示した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Semantic dimensions of sound have been playing a central role in
understanding the nature of auditory sensory experience as well as the broader
relation between perception, language, and meaning. Accordingly, and given the
recent proliferation of large language models (LLMs), here we asked whether
such models exhibit an organisation of perceptual semantics similar to those
observed in humans. Specifically, we prompted ChatGPT, a chatbot based on a
state-of-the-art LLM, to rate musical instrument sounds on a set of 20 semantic
scales. We elicited multiple responses in separate chats, analogous to having
multiple human raters. ChatGPT generated semantic profiles that only partially
correlated with human ratings, yet showed robust agreement along well-known
psychophysical dimensions of musical sounds such as brightness (bright-dark)
and pitch height (deep-high). Exploratory factor analysis suggested the same
dimensionality but different spatial configuration of a latent factor space
between the chatbot and human ratings. Unexpectedly, the chatbot showed degrees
of internal variability that were comparable in magnitude to that of human
ratings. Our work highlights the potential of LLMs to capture salient
dimensions of human sensory experience.
- Abstract(参考訳): 音のセマンティック次元は、聴覚感覚経験の性質や、知覚、言語、意味のより広い関係を理解する上で、中心的な役割を担っている。
その結果,近年の大型言語モデル(LLMs)の普及に伴い,このようなモデルが人間のものと類似した知覚意味論の組織を示すかどうかを問うことができた。
具体的には、最先端のLLMに基づくチャットボットChatGPTに、20のセマンティックスケールで楽器の音質を評価するよう促した。
別々のチャットで複数の応答を導き出しました。
ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、明るさ(明暗)やピッチ高さ(深高)といった音楽音のよく知られた心理物理学的次元に沿って強い一致を示した。
探索的因子分析により,チャットボットと人間の格付けの間に潜伏因子空間の空間配置が異なっていた。
予想外に、チャットボットは人間の評価に匹敵する程度の内部変動を示した。
我々の研究は、人間の感覚経験の健全な次元を捉えるLLMの可能性を強調している。
関連論文リスト
- BAT: Learning to Reason about Spatial Sounds with Large Language Models [48.48501269805149]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Exploring Spatial Schema Intuitions in Large Language and Vision Models [10.567239684448344]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。
驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。
本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文 参考訳(メタデータ) (2024-02-01T19:25:50Z) - A Linguistic Comparison between Human and ChatGPT-Generated Conversations [9.022590646680095]
この研究は、ChatGPTが生成した会話と人間の会話を比較して、言語問合せと単語数分析を取り入れている。
結果は,人間の対話における多様性と信頼度は高いが,ChatGPTは社会的プロセス,分析的スタイル,認知,注意的焦点,ポジティブな感情的トーンといったカテゴリーに優れていた。
論文 参考訳(メタデータ) (2024-01-29T21:43:27Z) - Relationship between auditory and semantic entrainment using Deep Neural
Networks (DNN) [0.0]
本研究では、BERTやTRILL(TRILL)ベクターのような最先端の埋め込みを利用して、対話中のターンの意味的および聴覚的類似性を測定する特徴を抽出した。
聴覚機能と比較して意味的特徴を訓練する傾向が見られた。
本研究の成果は,ヒトと機械の相互作用(HMI)におけるエントレインメントのメカニズムの実装に役立つかもしれない。
論文 参考訳(メタデータ) (2023-12-27T14:50:09Z) - Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。
我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。
我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。
提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。
生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文 参考訳(メタデータ) (2023-08-21T17:59:02Z) - Do large language models resemble humans in language use? [1.8524806794216748]
ChatGPTやVicunaのような大規模言語モデル(LLM)は、言語を解釈し、生成する際、顕著な能力を示している。
私たちはChatGPTとVicunaを、音から対話、事前登録、実験1回につき1000ラン(イテレーション)の12の実験に応用した。
ChatGPTとVicunaは、それぞれ12の実験のうち10と7で人間の言語使用パターンを再現した。
論文 参考訳(メタデータ) (2023-03-10T10:47:59Z) - Information-Restricted Neural Language Models Reveal Different Brain
Regions' Sensitivity to Semantics, Syntax and Context [87.31930367845125]
テキストコーパスを用いて語彙言語モデルGloveと超語彙言語モデルGPT-2を訓練した。
そして、これらの情報制限されたモデルが、自然主義的テキストを聴く人間のfMRI信号の時間軸を予測することができるかを評価した。
分析の結果、言語に関わるほとんどの脳領域は、構文変数と意味変数の両方に敏感であるが、これらの影響の相対的な大きさは、これらの領域で大きく異なることがわかった。
論文 参考訳(メタデータ) (2023-02-28T08:16:18Z) - Predicting User Code-Switching Level from Sociological and Psychological
Profiles [24.32063659777203]
ユーザのCS周波数とキャラクタ特性の相関関係を示す。
機械学習(ML)を用いて結果を検証する。
予測モデルは、ユーザのCS周波数を55%以上の精度で予測することができた。
論文 参考訳(メタデータ) (2021-12-13T07:36:02Z) - Perception Point: Identifying Critical Learning Periods in Speech for
Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。
我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文 参考訳(メタデータ) (2021-10-13T05:30:50Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。