論文の概要: Knowledge-Augmented Vision Language Models for Underwater Bioacoustic Spectrogram Analysis
- arxiv url: http://arxiv.org/abs/2509.05703v1
- Date: Sat, 06 Sep 2025 12:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.658251
- Title: Knowledge-Augmented Vision Language Models for Underwater Bioacoustic Spectrogram Analysis
- Title(参考訳): 水中バイオ音響スペクトログラム解析のための知識強化視覚言語モデル
- Authors: Ragib Amin Nihal, Benjamin Yen, Takeshi Ashizawa, Kazuhiro Nakadai,
- Abstract要約: 視覚言語モデル(VLM)が分光図から意味のあるパターンを視覚的に抽出できるかどうかを検討する。
我々のフレームワークは、VLMの解釈とLLMに基づく検証を統合し、ドメイン知識を構築する。
- 参考スコア(独自算出の注目度): 5.380078543698624
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Marine mammal vocalization analysis depends on interpreting bioacoustic spectrograms. Vision Language Models (VLMs) are not trained on these domain-specific visualizations. We investigate whether VLMs can extract meaningful patterns from spectrograms visually. Our framework integrates VLM interpretation with LLM-based validation to build domain knowledge. This enables adaptation to acoustic data without manual annotation or model retraining.
- Abstract(参考訳): 海洋哺乳動物の発声分析は、生体音響スペクトログラムの解釈に依存する。
視覚言語モデル(VLM)は、これらのドメイン固有の視覚化について訓練されていない。
VLMが分光器から有意なパターンを視覚的に抽出できるかどうかを検討する。
我々のフレームワークは、VLMの解釈とLLMに基づく検証を統合し、ドメイン知識を構築する。
これにより、手動のアノテーションやモデルの再訓練を使わずに、音響データに適応することができる。
関連論文リスト
- On the Reliability of Vision-Language Models Under Adversarial Frequency-Domain Perturbations [53.611451075703314]
VLM(Vision-Language Models)は、視覚コンテンツ推論のための知覚モジュールとして使われることが多い。
これらの特徴変換が,画像の自動キャプションタスクの信頼度/ディープフェイク検出にどのような影響を及ぼすかを示す。
論文 参考訳(メタデータ) (2025-07-30T05:41:29Z) - How Visual Representations Map to Language Feature Space in Multimodal LLMs [9.880509106657009]
視覚言語モデル(VLM)が視覚および言語表現のアライメントを実現するメカニズムについて検討する。
言語モデルを凍結させることにより、視覚データに適応することなく、元の言語表現を確実に維持する。
視覚表現が言語特徴表現と徐々に整合し、中から後期の層に収束する階層的進行を明らかにする。
論文 参考訳(メタデータ) (2025-06-13T17:34:05Z) - Incorporating Linguistic Constraints from External Knowledge Source for Audio-Visual Target Speech Extraction [87.49303116989708]
AV-TSEの補助的知識源として,事前学習言語モデル (PSLM) と事前学習言語モデル (PLM) の可能性を検討する。
本研究では, AV-TSE モデルに対するPSLM や PLM からの言語制約を追加の監視信号として活用することを提案する。
推論中に余分な計算コストがなければ、提案手法は音声品質と知能性を一貫して改善する。
論文 参考訳(メタデータ) (2025-06-11T14:36:26Z) - Integrating Frequency-Domain Representations with Low-Rank Adaptation in Vision-Language Models [0.6715525121432597]
本研究では,特徴抽出,拡張性,効率性を向上する新しい視覚言語モデル(VLM)フレームワークを提案する。
ガウス雑音のレベルが異なるベンチマークデータセットを用いて,キャプション生成モデルと視覚質問応答(VQA)タスクの評価を行った。
我々のモデルは、特に無人地上車両(UGV)に搭載されたRealSenseカメラで捉えた現実世界のイメージに対して、より詳細で文脈的に関係のある応答を提供する。
論文 参考訳(メタデータ) (2025-03-08T01:22:10Z) - AlignVLM: Bridging Vision and Language Latent Spaces for Multimodal Understanding [63.09928907734156]
AlignVLMは視覚的特徴をテキスト埋め込みの重み付き平均値にマッピングする視覚テキストアライメント手法である。
実験の結果,AlignVLMは先行アライメント法と比較して最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-02-03T13:34:51Z) - VLM's Eye Examination: Instruct and Inspect Visual Competency of Vision Language Models [19.291697178628546]
ビジョン言語モデル(VLM)は、様々なベンチマークで有望な推論能力を示している。
本研究では,VLMがどのようにイメージを知覚するかを調べるために,視線検査プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-23T07:15:29Z) - X-Former: Unifying Contrastive and Reconstruction Learning for MLLMs [49.30255148577368]
X-FormerはCLとMIMの相補的な強度を利用するために設計された軽量トランスフォーマーモジュールである。
X-Formerは、2つの凍結した視覚エンコーダから視覚言語表現学習とマルチモーダル・マルチモーダル生成学習をブートストラップする。
さらに、凍結したLLMから視覚から言語への生成学習をブートストラップし、X-Formerの視覚的特徴をLLMで解釈できるようにする。
論文 参考訳(メタデータ) (2024-07-18T18:39:54Z) - Synthetic Boost: Leveraging Synthetic Data for Enhanced Vision-Language
Segmentation in Echocardiography [0.9324036842528547]
VLSM(Vision-Language Models)は、リッチなコンテキスト情報を組み込んで、正確で説明可能なセグメンテーションを支援する。
本研究では,セマンティック拡散モデル(SDM)の合成データセットを用いて心エコー区分けのためのVLSMを強化する。
実画像の微調整前に,SDM合成画像上でのVLSMの事前学習において,測定値の改善と収束の高速化が得られた。
論文 参考訳(メタデータ) (2023-09-22T12:36:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。