論文の概要: Tonguescape: Exploring Language Models Understanding of Vowel Articulation
- arxiv url: http://arxiv.org/abs/2501.17643v1
- Date: Wed, 29 Jan 2025 13:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:54:47.717891
- Title: Tonguescape: Exploring Language Models Understanding of Vowel Articulation
- Title(参考訳): Tonguescape: 母音の構音を理解する言語モデルを探る
- Authors: Haruki Sakajo, Yusuke Sakai, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: 人間は自身の経験とMRIのような明確な客観的観察を通して母音の明瞭さを発見した。
言語モデル(LM)は言語と医学の分野を含む大量のデータに基づいて訓練されているため、予備的な研究は、LMが母音の発音機構を説明することができることを示している。
1つの疑問が生じる: LMは実際の舌の位置と母音の調音を関連付けるか?
本研究では,既存のリアルタイムMRIデータセットから映像と画像のデータセットを作成し,視覚情報を用いて舌の位置に基づいて,LMが母音の調音を理解できるかどうかを検討した。
- 参考スコア(独自算出の注目度): 25.492954759111708
- License:
- Abstract: Vowels are primarily characterized by tongue position. Humans have discovered these features of vowel articulation through their own experience and explicit objective observation such as using MRI. With this knowledge and our experience, we can explain and understand the relationship between tongue positions and vowels, and this knowledge is helpful for language learners to learn pronunciation. Since language models (LMs) are trained on a large amount of data that includes linguistic and medical fields, our preliminary studies indicate that an LM is able to explain the pronunciation mechanisms of vowels. However, it is unclear whether multi-modal LMs, such as vision LMs, align textual information with visual information. One question arises: do LMs associate real tongue positions with vowel articulation? In this study, we created video and image datasets from the existing real-time MRI dataset and investigated whether LMs can understand vowel articulation based on tongue positions using vision-based information. Our findings suggest that LMs exhibit potential for understanding vowels and tongue positions when reference examples are provided while they have difficulties without them. Our code for dataset building is available on GitHub.
- Abstract(参考訳): 母音は主に舌の位置によって特徴づけられる。
人間は、自身の経験とMRIのような明確な客観的観察を通して、これらの母音の調音の特徴を発見した。
この知識と経験により、舌の位置と母音の関係を説明・理解することができ、この知識は、言語学習者が発音を学ぶのに役立つ。
言語モデル(LM)は言語と医学の分野を含む大量のデータに基づいて訓練されているため、予備的な研究は、LMが母音の発音機構を説明することができることを示している。
しかし,視覚 LM などのマルチモーダル LM がテキスト情報と視覚情報とを一致させるかどうかは不明である。
1つの疑問が生じる: LMは実際の舌の位置と母音の調音を関連付けるか?
本研究では,既存のリアルタイムMRIデータセットから映像と画像のデータセットを作成し,視覚情報を用いて舌の位置に基づいて,LMが母音の調音を理解できるかどうかを検討した。
以上の結果から,LMは母音や舌の位置を理解できる可能性が示唆された。
データセット構築のコードはGitHubで入手可能です。
関連論文リスト
- How Much Do LLMs Hallucinate across Languages? On Multilingual Estimation of LLM Hallucination in the Wild [11.82100047858478]
幻覚とは、大規模言語モデルが非現実的または不誠実な応答を生成する傾向である。
我々は多言語幻覚検出モデルを訓練し、30言語にわたる大規模な研究を行う。
その結果,LLMは高次情報源言語に対するより幻覚的なトークンでより長い応答を生成するが,言語の長さ正規化幻覚率とそれらのデジタル表現との間には相関がないことが判明した。
論文 参考訳(メタデータ) (2025-02-18T11:32:43Z) - Faux Polyglot: A Study on Information Disparity in Multilingual Large Language Models [7.615938028813914]
言語間RAGに基づく情報検索における言語嗜好について検討した。
その結果,LLMは問合せ言語と同じ言語で情報に対する体系的バイアスを示すことがわかった。
論文 参考訳(メタデータ) (2024-07-07T21:26:36Z) - Language-Specific Neurons: The Key to Multilingual Capabilities in Large Language Models [117.20416338476856]
大規模言語モデル(LLM)は、特別にキュレートされた多言語並列コーパスで事前訓練されることなく、顕著な多言語機能を示す。
LLM内の言語特異的ニューロンを識別するための新しい検出手法である言語アクティベーション確率エントロピー(LAPE)を提案する。
以上の結果から,LLMが特定の言語を処理できる能力は,神経細胞のサブセットが少なすぎるためであることが示唆された。
論文 参考訳(メタデータ) (2024-02-26T09:36:05Z) - Divergences between Language Models and Human Brains [59.100552839650774]
我々は,人間と機械語処理の相違点を体系的に探求する。
我々は、LMがうまく捉えられない2つの領域、社会的/感情的知性と身体的常識を識別する。
以上の結果から,これらの領域における微調整LMは,ヒト脳反応との整合性を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-11-15T19:02:40Z) - Exploring In-Context Learning of Textless Speech Language Model for Speech Classification Tasks [98.5311231450689]
インコンテキスト学習(ICL)は,大規模言語モデル(LLM)の利用において重要な役割を担っている。
本研究は,テキストレス音声 LM を用いた音声分類タスクのための ICL を探索する最初の研究である。
論文 参考訳(メタデータ) (2023-10-19T05:31:45Z) - BuboGPT: Enabling Visual Grounding in Multi-Modal LLMs [101.50522135049198]
BuboGPTはマルチモーダルなLLMで、視覚、音声、言語間の相互対話を行うことができる。
1)文中のエンティティを抽出し、画像中の対応するマスクを見つけるSAMに基づく、市販のビジュアルグラウンドモジュール。
実験の結果,BuboGPTは人間との相互作用において,印象的なマルチモーダル理解と視覚的接地能力を実現することがわかった。
論文 参考訳(メタデータ) (2023-07-17T15:51:47Z) - A blind spot for large language models: Supradiegetic linguistic information [0.602276990341246]
ChatGPTのような大きな言語モデル(LLM)は、驚くべきことに人間らしく、言語的な流布を実現する。
本稿では,言語学,具体的認知,認知科学,数学,歴史など,いくつかの分野の思想を用いて,この枠組みの詳細について検討する。
これらの概念を用いて,ChatGPT などの LLM がパリンドロム処理に苦慮する理由,シンボルの視覚的特徴,シュメール・キュニフォームの翻訳,整数列の継続について検討する。
論文 参考訳(メタデータ) (2023-06-11T22:15:01Z) - LLM-CXR: Instruction-Finetuned LLM for CXR Image Understanding and Generation [51.08810811457617]
LLMにおける視覚言語アライメントは、マルチモーダル推論とビジュアルIOを可能にするために活発に研究されている。
医用画像の視覚言語能力を得るために,テキストのみにLLMを指導する手法を開発した。
このアプローチで訓練したLLM-CXRは,CXR理解タスクと生成タスクの両方において,より優れた画像テキストアライメントを示す。
論文 参考訳(メタデータ) (2023-05-19T07:44:39Z) - Does Vision Accelerate Hierarchical Generalization in Neural Language Learners? [32.9355090864485]
本研究では、基底言語習得の利点、特に視覚情報がニューラル言語モデル(LM)の構文一般化に与える影響について検討する。
実験の結果,言語的要素と視覚的要素のアライメントが明確であれば,視覚データへのアクセスはLMの構文的一般化に役立つが,そうでなければ視覚的入力は役に立たないことがわかった。
これは、相互の視線のような追加のバイアスや信号の必要性を強調し、クロスモーダルアライメントを強化し、マルチモーダルLMにおける効率的な統語的一般化を可能にする。
論文 参考訳(メタデータ) (2023-02-01T18:53:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。