Fugu-MT 論文翻訳(概要): The language of sounds unheard: Exploring musical timbre semantics of large language models

論文の概要: The language of sounds unheard: Exploring musical timbre semantics of large language models

arxiv url: http://arxiv.org/abs/2304.07830v3
Date: Thu, 4 May 2023 10:05:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-05 18:43:31.250827
Title: The language of sounds unheard: Exploring musical timbre semantics of large language models
Title（参考訳）: 聴覚のない音の言語:大規模言語モデルの音韻意味論の探索
Authors: Kai Siedenburg and Charalampos Saitis
Abstract要約: 近年の大型言語モデル(LLM)の普及を考えると、そのようなモデルが人間のものと類似した知覚的意味論の組織を示すかどうかを問うた。異なるチャットで複数の応答を抽出した。 ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、音楽音のよく知られた心理物理学的次元に沿って頑健な一致を示した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Semantic dimensions of sound have been playing a central role in understanding the nature of auditory sensory experience as well as the broader relation between perception, language, and meaning. Accordingly, and given the recent proliferation of large language models (LLMs), here we asked whether such models exhibit an organisation of perceptual semantics similar to those observed in humans. Specifically, we prompted ChatGPT, a chatbot based on a state-of-the-art LLM, to rate musical instrument sounds on a set of 20 semantic scales. We elicited multiple responses in separate chats, analogous to having multiple human raters. ChatGPT generated semantic profiles that only partially correlated with human ratings, yet showed robust agreement along well-known psychophysical dimensions of musical sounds such as brightness (bright-dark) and pitch height (deep-high). Exploratory factor analysis suggested the same dimensionality but different spatial configuration of a latent factor space between the chatbot and human ratings. Unexpectedly, the chatbot showed degrees of internal variability that were comparable in magnitude to that of human ratings. Our work highlights the potential of LLMs to capture salient dimensions of human sensory experience.
Abstract（参考訳）: 音のセマンティック次元は、聴覚感覚経験の性質や、知覚、言語、意味のより広い関係を理解する上で、中心的な役割を担っている。その結果,近年の大型言語モデル(LLMs)の普及に伴い,このようなモデルが人間のものと類似した知覚意味論の組織を示すかどうかを問うことができた。具体的には、最先端のLLMに基づくチャットボットChatGPTに、20のセマンティックスケールで楽器の音質を評価するよう促した。別々のチャットで複数の応答を導き出しました。 ChatGPTは人間の評価と部分的にしか相関しないセマンティックプロファイルを作成したが、明るさ(明暗)やピッチ高さ(深高)といった音楽音のよく知られた心理物理学的次元に沿って強い一致を示した。探索的因子分析により,チャットボットと人間の格付けの間に潜伏因子空間の空間配置が異なっていた。予想外に、チャットボットは人間の評価に匹敵する程度の内部変動を示した。我々の研究は、人間の感覚経験の健全な次元を捉えるLLMの可能性を強調している。

関連論文リスト

V-VAE: A Variational Auto Encoding Framework Towards Fine-Grained Control over Human-Like Chat [19.038481783630864]
ロールプレイとペルソナベースのチャットアプローチは、静的な役割記述、粗い信号空間、低品質の合成データに大きく依存している。人間のようなチャットは、感情的なトーン、状況認識、進化するパーソナリティなどの微妙な潜伏特性をモデル化する必要がある。これらの制約に対処するため、変分自動符号化モジュールと細粒度で解釈可能な潜伏変数を含むV-VAEフレームワークを提案する。
論文参考訳（メタデータ） (2025-06-02T10:38:02Z)
OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction [123.89581506075461]
OmniCharacter は,低レイテンシで没入型 RPA を実現するための対話型対話モデルである。具体的には、OmniCharacterは、エージェントが相互作用を通して、ロール固有の性格特性と声質特性を一貫して表示できるようにする。提案手法は,既存のRPAモデルや主流言語モデルと比較して,応答遅延を289msに抑えながら,内容とスタイルの両面で優れた応答が得られる。
論文参考訳（メタデータ） (2025-05-26T17:55:06Z)
Distinct social-linguistic processing between humans and large audio-language models: Evidence from model-brain alignment [0.846600473226587]
本研究では,音声認識モデル(LALM)とヒトの音声理解における話者特性について比較した。 LALM(Qwen2-AudioとUltravox 0.5)処理パターンをヒト脳波応答と比較した。
論文参考訳（メタデータ） (2025-03-25T12:10:47Z)
SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文参考訳（メタデータ） (2024-09-17T02:36:10Z)
DiverseDialogue: A Methodology for Designing Chatbots with Human-Like Diversity [5.388338680646657]
また, GPT-4o miniは, 複数の言語的特徴にまたがって, 実際の人間と系統的に異なることを示す。本研究では,実際の人的インタラクションから派生した特徴を取り入れたユーザシミュレーションのプロンプトを自動生成する手法を提案する。本手法は,特定の言語的特徴を対象とするように最適化され,大幅な改善が見られた。
論文参考訳（メタデータ） (2024-08-30T21:33:58Z)
Evaluating Speaker Identity Coding in Self-supervised Models and Humans [0.42303492200814446]
話者のアイデンティティは、人間のコミュニケーションにおいて重要な役割を担い、社会的応用においてますます利用されている。本研究では, 話者識別において, 音響的表現よりも, 話者識別において, 異なる家族の自己指導的表現の方が有意に優れていることを示す。また、このような話者識別タスクは、これらの強力なネットワークの異なる層における音響情報表現の性質をよりよく理解するためにも利用できることを示す。
論文参考訳（メタデータ） (2024-06-14T20:07:21Z)
Exploring Spatial Schema Intuitions in Large Language and Vision Models [8.944921398608063]
大規模言語モデル(LLM)が言語ブロック構築に関する暗黙の人間の直感を効果的に捉えているかどうかを検討する。驚くべきことに、モデル出力と人間の反応の相関が出現し、具体的体験と具体的なつながりのない適応性が明らかになる。本研究は,大規模言語モデルによる言語,空間経験,計算間の相互作用の微妙な理解に寄与する。
論文参考訳（メタデータ） (2024-02-01T19:25:50Z)
A Linguistic Comparison between Human and ChatGPT-Generated Conversations [9.022590646680095]
この研究は、ChatGPTが生成した会話と人間の会話を比較して、言語問合せと単語数分析を取り入れている。結果は,人間の対話における多様性と信頼度は高いが,ChatGPTは社会的プロセス,分析的スタイル,認知,注意的焦点,ポジティブな感情的トーンといったカテゴリーに優れていた。
論文参考訳（メタデータ） (2024-01-29T21:43:27Z)
Divergences between Language Models and Human Brains [63.405788999891335]
最近の研究は、言語モデルの内部表現(LM)を用いて脳信号が効果的に予測できることを示唆している。我々は、LMと人間が言語をどのように表現し、使用するかに明確な違いがあることを示します。我々は、社会的・情緒的知性と身体的常識という、LMによってうまく捉えられていない2つの領域を識別する。
論文参考訳（メタデータ） (2023-11-15T19:02:40Z)
Can Language Models Learn to Listen? [96.01685069483025]
本稿では,話者の言葉に基づく社会的対話における聞き手から適切な表情応答を生成するための枠組みを提案する。提案手法は,VQ-VAEを用いて定量化したリスナーの顔のジェスチャー列であるリスナーの応答を自己回帰的に予測する。生成したリスナーの動きは,定量的メトリクスと質的ユーザスタディを通じて,言語意味論に精通し,反映していることを示す。
論文参考訳（メタデータ） (2023-08-21T17:59:02Z)
Do large language models resemble humans in language use? [1.8524806794216748]
ChatGPTやVicunaのような大規模言語モデル(LLM)は、言語を解釈し、生成する際、顕著な能力を示している。私たちはChatGPTとVicunaを、音から対話、事前登録、実験1回につき1000ラン(イテレーション)の12の実験に応用した。 ChatGPTとVicunaは、それぞれ12の実験のうち10と7で人間の言語使用パターンを再現した。
論文参考訳（メタデータ） (2023-03-10T10:47:59Z)
Information-Restricted Neural Language Models Reveal Different Brain Regions' Sensitivity to Semantics, Syntax and Context [87.31930367845125]
テキストコーパスを用いて語彙言語モデルGloveと超語彙言語モデルGPT-2を訓練した。そして、これらの情報制限されたモデルが、自然主義的テキストを聴く人間のfMRI信号の時間軸を予測することができるかを評価した。分析の結果、言語に関わるほとんどの脳領域は、構文変数と意味変数の両方に敏感であるが、これらの影響の相対的な大きさは、これらの領域で大きく異なることがわかった。
論文参考訳（メタデータ） (2023-02-28T08:16:18Z)
Perception Point: Identifying Critical Learning Periods in Speech for Bilingual Networks [58.24134321728942]
ディープニューラルベース視覚唇読解モデルにおける認知的側面を比較し,識別する。我々は、認知心理学におけるこれらの理論と独自のモデリングの間に強い相関関係を観察する。
論文参考訳（メタデータ） (2021-10-13T05:30:50Z)
Mechanisms for Handling Nested Dependencies in Neural-Network Language Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文参考訳（メタデータ） (2020-06-19T12:00:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。