論文の概要: Teaching Physical Awareness to LLMs through Sounds
- arxiv url: http://arxiv.org/abs/2506.08524v1
- Date: Tue, 10 Jun 2025 07:42:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:41.772445
- Title: Teaching Physical Awareness to LLMs through Sounds
- Title(参考訳): 音によるLCMの身体的認識の指導
- Authors: Weiguo Wang, Andy Nie, Wenrui Zhou, Yi Kai, Chengchen Hu,
- Abstract要約: ACORNは大規模言語モデル(LLM)の物理的認識を音で教えるフレームワークである。
我々は,包括的音声質問応答データセットであるAQA-PHYを構築し,大きさ情報と位相情報の両方を処理するオーディオエンコーダを提案する。
本研究では,視線検出,ドップラー効果推定,方向推定など,実世界の実世界の課題において合理的な結果を示す。
- 参考スコア(独自算出の注目度): 2.5260091444764554
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in text and multimodal processing, yet they fundamentally lack physical awareness--understanding of real-world physical phenomena. In this work, we present ACORN, a framework that teaches LLMs physical awareness through sound, focusing on fundamental physical phenomena like the Doppler effect, multipath effect, and spatial relationships. To overcome data scarcity, ACORN introduce a physics-based simulator combining real-world sound sources with controlled physical channels to generate diverse training data. Using this simulator, we build AQA-PHY, a comprehensive Audio Question-Answer dataset, and propose an audio encoder that processes both magnitude and phase information. By connecting our audio encoder to state-of-the-art LLMs, we demonstrate reasonable results in both simulated and real-world tasks, such as line-of-sight detection, Doppler effect estimation, and Direction-of-Arrival estimation, paving the way for enabling LLMs to understand physical world.
- Abstract(参考訳): 大規模言語モデル(LLM)は、テキストとマルチモーダル処理において顕著な能力を示してきたが、現実の物理現象の認識を根本的に欠いている。
本研究では,音によるLLMの物理的認識を教えるフレームワークであるACORNについて,ドップラー効果,マルチパス効果,空間的関係といった基本的な物理現象に着目した。
データ不足を克服するため、ACORNは現実世界の音源と制御された物理チャネルを組み合わせた物理ベースのシミュレータを導入し、多様なトレーニングデータを生成する。
このシミュレータを用いて、包括的音声質問応答データセットであるAQA-PHYを構築し、大きさと位相情報の両方を処理するオーディオエンコーダを提案する。
音声エンコーダを最先端のLCMに接続することにより、ラインオブ視点検出、ドップラー効果推定、ディレクト・オブ・アーリバル推定といったシミュレーションと実世界のタスクにおいて合理的な結果を示し、LCMが物理世界を理解するための道を開く。
関連論文リスト
- Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.79821758835663]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。
本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - The Sound of Water: Inferring Physical Properties from Pouring Liquids [85.30865788636386]
注水液の音響・視覚観測と物理の関連性について検討した。
本研究の目的は, 液位, 容器形状, 注水速度, 充填時間などの物性を自動的に推定することである。
論文 参考訳(メタデータ) (2024-11-18T01:19:37Z) - LLM4Brain: Training a Large Language Model for Brain Video Understanding [9.294352205183726]
映像刺激によって引き起こされるfMRI信号から視覚的意味情報を再構成するためのLCMに基づく手法を提案する。
我々は、適応器を備えたfMRIエンコーダに微調整技術を用いて、脳の反応を映像刺激に合わせた潜在表現に変換する。
特に,視覚的セマンティック情報と脳反応のアライメントを高めるために,自己教師付きドメイン適応手法を統合する。
論文 参考訳(メタデータ) (2024-09-26T15:57:08Z) - Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos [78.49864987061689]
従来の衝撃音合成法では、音を表現・合成できる物理パラメータのセットを得るために物理シミュレーションを用いていた。
既存のビデオ駆動ディープラーニングベースのアプローチは、視覚コンテンツと衝撃音の間の弱い対応を捉えることしかできなかった。
サイレントビデオクリップに高忠実度衝撃音を合成できる物理駆動拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。