Fugu-MT 論文翻訳(概要): BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

論文の概要: BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment

arxiv url: http://arxiv.org/abs/2603.23883v1
Date: Wed, 25 Mar 2026 03:15:04 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-26 21:06:11.105075
Title: BioVITA: Biological Dataset, Model, and Benchmark for Visual-Textual-Acoustic Alignment
Title（参考訳）: BioVITA:ビジュアル・テキスト・音響アライメントのためのバイオデータセット、モデル、ベンチマーク
Authors: Risa Shinoda, Kaede Shiohara, Nakamasa Inoue, Kuniaki Saito, Hiroaki Santo, Fumio Okura,
Abstract要約: 動物種をマルチモーダルデータから理解することは、コンピュータビジョンと生態学の交差において新たな課題となる。生体応用のための新しい視覚・テキスト・音響アライメントフレームワークであるBioVITAを提案する。
参考スコア（独自算出の注目度）: 42.72898704470983
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Understanding animal species from multimodal data poses an emerging challenge at the intersection of computer vision and ecology. While recent biological models, such as BioCLIP, have demonstrated strong alignment between images and textual taxonomic information for species identification, the integration of the audio modality remains an open problem. We propose BioVITA, a novel visual-textual-acoustic alignment framework for biological applications. BioVITA involves (i) a training dataset, (ii) a representation model, and (iii) a retrieval benchmark. First, we construct a large-scale training dataset comprising 1.3 million audio clips and 2.3 million images, covering 14,133 species annotated with 34 ecological trait labels. Second, building upon BioCLIP2, we introduce a two-stage training framework to effectively align audio representations with visual and textual representations. Third, we develop a cross-modal retrieval benchmark that covers all possible directional retrieval across the three modalities (i.e., image-to-audio, audio-to-text, text-to-image, and their reverse directions), with three taxonomic levels: Family, Genus, and Species. Extensive experiments demonstrate that our model learns a unified representation space that captures species-level semantics beyond taxonomy, advancing multimodal biodiversity understanding. The project page is available at: https://dahlian00.github.io/BioVITA_Page/
Abstract（参考訳）: 動物種をマルチモーダルデータから理解することは、コンピュータビジョンと生態学の交差において新たな課題となる。近年の生物モデル、例えばBioCLIPは、画像と種識別のためのテキスト分類学的情報の間に強い整合性を示してきたが、オーディオモダリティの統合は依然として未解決の問題である。生体応用のための新しい視覚・テキスト・音響アライメントフレームワークであるBioVITAを提案する。 BioVITAは i)トレーニングデータセット (ii)表現モデル、及び (iii) 検索ベンチマーク。まず,34種の生態特性ラベルを付加した14,133種を対象に,13万のオーディオクリップと230万の画像からなる大規模トレーニングデータセットを構築した。第二に,BioCLIP2をベースとした2段階の学習フレームワークを導入し,音声表現を視覚的・テキスト的表現と効果的に整合させる。第3に,画像・音声・音声・音声・テキスト・画像・画像の逆方向の3種類の方向検索を,家族・属・種という3つの分類レベルで網羅するクロスモーダル検索ベンチマークを開発した。広範囲にわたる実験により,本モデルは分類学以外の種レベルの意味を捉える統一表現空間を学習し,多様生物多様性の理解を推し進めることを示した。プロジェクトページは、https://dahlian00.github.io/BioVITA_Page/で公開されている。

関連論文リスト

The iNaturalist Sounds Dataset [60.157076990024606]
iNatSoundsは、5500種以上の音をキャプチャする23万のオーディオファイルのコレクションで、世界中で27,000人以上のレコーダーが貢献している。このデータセットは、鳥類、哺乳類、昆虫、虫類、両生類からの音を包含し、iNaturalistに提出された観察から得られたオーディオおよび種名を含む。我々は、次世代の公的なエンゲージメントアプリケーションを支えるこのデータに基づいて訓練されたモデルを構想し、大規模なオーディオコレクションの処理において生物学者、生態学者、土地利用管理者を支援する。
論文参考訳（メタデータ） (2025-05-31T02:07:37Z)
BioCLIP 2: Emergent Properties from Scaling Hierarchical Contrastive Learning [60.80381372245902]
生体視覚モデルでは,大規模コントラスト視覚言語学習により創発的行動が観察される。我々は、異なる種を区別するために、TreeOfLife-200MでBioCLIP 2を訓練する。得られたBioCLIP 2の埋め込み空間における創発的特性を同定する。
論文参考訳（メタデータ） (2025-05-29T17:48:20Z)
CrypticBio: A Large Multimodal Dataset for Visually Confusing Biodiversity [3.73232466691291]
我々はCrypticBioについて紹介する。 iNaturalistのコミュニティアノテーターの間では、実際の種誤認の傾向から批判され、CrypticBioは67K種にまたがる52Kの独特な暗号グループを含んでいる。
論文参考訳（メタデータ） (2025-05-16T14:35:56Z)
NatureLM-audio: an Audio-Language Foundation Model for Bioacoustics [35.72581102737726]
NatureLM-audioはバイオ音響学に特化して設計された最初のオーディオ言語基盤モデルである。トレーニングデータセットは、バイオアコースティック、スピーチ、音楽にまたがるテキストとオーディオのペアを慎重にキュレートしたものだ。音楽や音声から生体音響への学習表現の伝達が成功し,本モデルは未知の分類群や課題への有望な一般化を示す。
論文参考訳（メタデータ） (2024-11-11T18:01:45Z)
animal2vec and MeerKAT: A self-supervised transformer for rare-event raw audio input and a large-scale reference dataset for bioacoustics [2.1019401515721583]
animal2vecは、未ラベルの音声から学習し、ラベル付きデータでその理解を洗練する、解釈可能な大きなトランスフォーマーモデルである。 Meerkat Audio Transcriptsは、ヒト以外の地上哺乳動物に関する最大のラベル付きデータセットである。我々のモデルは,MeerKATの既存の手法と利用可能な NIPS4Bplus Birdong データセットより優れている。
論文参考訳（メタデータ） (2024-06-03T12:11:01Z)
Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文参考訳（メタデータ） (2023-08-09T14:22:18Z)
BiomedCLIP: a multimodal biomedical foundation model pretrained from fifteen million scientific image-text pairs [46.87322157229728]
PMC-15Mは,既存のバイオメディカル・マルチモーダル・データセットよりも2桁大きい新しいデータセットである。 PMC-15Mは440万の科学論文から収集された1500万のバイオメディカル画像テキスト対を含んでいる。 PMC-15Mに基づいて,生物医学的視覚言語処理に適したドメイン固有適応を備えた多モーダル基礎モデルであるBiomedCLIPを事前訓練した。
論文参考訳（メタデータ） (2023-03-02T02:20:04Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。