論文の概要: Teaching Physical Awareness to LLMs through Sounds
- arxiv url: http://arxiv.org/abs/2506.08524v2
- Date: Wed, 11 Jun 2025 05:18:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-12 16:13:48.062844
- Title: Teaching Physical Awareness to LLMs through Sounds
- Title(参考訳): 音によるLCMの身体的認識の指導
- Authors: Weiguo Wang, Andy Nie, Wenrui Zhou, Yi Kai, Chengchen Hu,
- Abstract要約: ACORNは大規模言語モデル(LLM)の物理的認識を音で教えるフレームワークである。
我々は,包括的音声質問応答データセットであるAQA-PHYを構築し,大きさ情報と位相情報の両方を処理するオーディオエンコーダを提案する。
本研究では,視線検出,ドップラー効果推定,方向推定など,実世界の実世界の課題において合理的な結果を示す。
- 参考スコア(独自算出の注目度): 2.5260091444764554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in text and multimodal processing, yet they fundamentally lack physical awareness--understanding of real-world physical phenomena. In this work, we present ACORN, a framework that teaches LLMs physical awareness through sound, focusing on fundamental physical phenomena like the Doppler effect, multipath effect, and spatial relationships. To overcome data scarcity, ACORN introduce a physics-based simulator combining real-world sound sources with controlled physical channels to generate diverse training data. Using this simulator, we build AQA-PHY, a comprehensive Audio Question-Answer dataset, and propose an audio encoder that processes both magnitude and phase information. By connecting our audio encoder to state-of-the-art LLMs, we demonstrate reasonable results in both simulated and real-world tasks, such as line-of-sight detection, Doppler effect estimation, and Direction-of-Arrival estimation, paving the way for enabling LLMs to understand physical world.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストとマルチモーダル処理において顕著な能力を示してきたが、現実の物理現象の認識を根本的に欠いている。
本研究では,音によるLLMの物理的認識を教えるフレームワークであるACORNについて,ドップラー効果,マルチパス効果,空間的関係といった基本的な物理現象に着目した。
データ不足を克服するため、ACORNは現実世界の音源と制御された物理チャネルを組み合わせた物理ベースのシミュレータを導入し、多様なトレーニングデータを生成する。
このシミュレータを用いて、包括的音声質問応答データセットであるAQA-PHYを構築し、大きさと位相情報の両方を処理するオーディオエンコーダを提案する。
音声エンコーダを最先端のLCMに接続することにより、ラインオブ視点検出、ドップラー効果推定、ディレクト・オブ・アーリバル推定といったシミュレーションと実世界のタスクにおいて合理的な結果を示し、LCMが物理世界を理解するための道を開く。
関連論文リスト
- MOSPA: Human Motion Generation Driven by Spatial Audio [56.735282455483954]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
MOSPAと呼ばれるSPatial Audioによって駆動される人間の運動生成のための、シンプルで効果的な拡散に基づく生成フレームワークを開発する。
トレーニングが完了すると、MOSPAは様々な空間的オーディオ入力に基づいて、多様なリアルな人間の動作を生成することができる。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - PAL: Probing Audio Encoders via LLMs -- A Study of Information Transfer from Audio Encoders to LLMs [16.820927353576774]
大規模言語モデル(LLM)への音声認識機能の統合は、オーディオ-LLMの大幅な進歩を可能にした。
我々は,LLMがテキストクエリを満たすために,音声エンコーダ表現を適切に探索する能力として,効果的な音声-LLMインタラクションを概念化する。
本稿では,建築設計の選択がそれにどのように影響するかを体系的に検討する。
論文 参考訳(メタデータ) (2025-06-12T07:23:07Z) - Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.79821758835663]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。
本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。
これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。
本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:08:41Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - The Sound of Water: Inferring Physical Properties from Pouring Liquids [85.30865788636386]
注水液の音響・視覚観測と物理の関連性について検討した。
本研究の目的は, 液位, 容器形状, 注水速度, 充填時間などの物性を自動的に推定することである。
論文 参考訳(メタデータ) (2024-11-18T01:19:37Z) - LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - ML-ASPA: A Contemplation of Machine Learning-based Acoustic Signal
Processing Analysis for Sounds, & Strains Emerging Technology [0.0]
本稿では,機械学習(ML)とディープラーニングに焦点をあてて,音響分野における最近の進歩と変革の可能性を探る。
MLはデータ駆動のアプローチを採用し、機能と望ましいラベルやアクション、さらには機能自体の複雑な関係を明らかにする。
機械学習のトレーニングデータの拡張への応用により、人間の発話や残響のような複雑な音響現象を解明するモデルが発見される。
論文 参考訳(メタデータ) (2023-12-18T03:04:42Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。