論文の概要: Counting Without Numbers \& Finding Without Words
- arxiv url: http://arxiv.org/abs/2603.24470v1
- Date: Wed, 25 Mar 2026 16:13:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.380244
- Title: Counting Without Numbers \& Finding Without Words
- Title(参考訳): 数字なしのカウントと単語なしの検索
- Authors: Badri Narayana Patro,
- Abstract要約: 失われたペットの70%は家族と再会しない。
現在のシステムは外見のみを見るが、動物は音でお互いを認識する。
コンピュータビジョンはなぜ声を鳴らす種を静かな視覚オブジェクトとして扱うのか?
視覚・音響バイオメトリックスを統合した初のマルチモーダル再統合システムを提案する。
- 参考スコア(独自算出の注目度): 3.722707313671671
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Every year, 10 million pets enter shelters, separated from their families. Despite desperate searches by both guardians and lost animals, 70% never reunite, not because matches do not exist, but because current systems look only at appearance, while animals recognize each other through sound. We ask, why does computer vision treat vocalizing species as silent visual objects? Drawing on five decades of cognitive science showing that animals perceive quantity approximately and communicate identity acoustically, we present the first multimodal reunification system integrating visual and acoustic biometrics. Our species-adaptive architecture processes vocalizations from 10Hz elephant rumbles to 4kHz puppy whines, paired with probabilistic visual matching that tolerates stress-induced appearance changes. This work demonstrates that AI grounded in biological communication principles can serve vulnerable populations that lack human language.
- Abstract(参考訳): 毎年1000万匹のペットが避難所に入り、家族と離れている。
保護者と失われた動物の両方による必死な捜索にもかかわらず、70%は再会することはない。
コンピュータビジョンはなぜ声を鳴らす種を静かな視覚オブジェクトとして扱うのか?
視覚的・音響的バイオメトリックスを統合した最初のマルチモーダル再統一システムを提案する。
種適応型アーキテクチャは,10Hzのゾウ鳴き声から4kHzの子犬鳴き声への発声を,ストレスによる外観変化を許容する確率的視覚マッチングと組み合わせて行う。
この研究は、生物学的コミュニケーションの原則に根ざしたAIが、人間の言語を欠く脆弱な人口に役立てることができることを示した。
関連論文リスト
- Feature Representations for Automatic Meerkat Vocalization Classification [15.642602544201308]
本稿では,自動メエルカット発声解析のための特徴表現について検討する。
2つのデータセットを対象としたコールタイプ分類研究により、人間の音声処理のために開発された特徴抽出法が、自動メエルカット呼分析に効果的に活用できることが明らかになった。
論文 参考訳(メタデータ) (2024-08-27T10:51:51Z) - Towards Dog Bark Decoding: Leveraging Human Speech Processing for Automated Bark Classification [23.974783158267428]
犬の樹皮分類課題に対処するために,人間の音声で事前訓練した自己教師付き音声表現モデルの利用について検討する。
音声埋め込み表現の使用は、より単純な分類基準よりも大幅に改善されることを示す。
また、大規模人間の音声音響学で事前訓練されたモデルでは、いくつかのタスクでさらなる性能向上が期待できる。
論文 参考訳(メタデータ) (2024-04-29T14:41:59Z) - Phonetic and Lexical Discovery of a Canine Language using HuBERT [40.578021131708155]
本稿では,犬の発声における潜在的なコミュニケーションパターンについて検討し,従来の言語分析障壁を超越する。
本稿では,HuBERTを用いた自己教師型アプローチを提案し,音素ラベルの正確な分類を可能にした。
我々は,ユーザのアップロードした犬の音声に語彙内に存在する音素n-gramを強調表示するWebベースの犬声分類ラベリングシステムを開発した。
論文 参考訳(メタデータ) (2024-02-25T04:35:45Z) - Transferable Models for Bioacoustics with Human Language Supervision [0.0]
BioLingualは、対照的な言語-オーディオ事前学習に基づくバイオ音響学の新しいモデルである。
分類群にまたがる1000種以上の呼び出しを識別し、完全なバイオ音響タスクをゼロショットで実行し、自然のテキストクエリから動物の発声記録を検索する。
論文 参考訳(メタデータ) (2023-08-09T14:22:18Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Chimpanzee voice prints? Insights from transfer learning experiments
from human voices [0.0]
私たちは、チンパンジーの音声プリントを特定するために、1万以上の人間の音声プリントに基づいて訓練されたディープニューラルネットワークを使用します。
従来の音響特性を用いて得られた結果と比較した。
論文 参考訳(メタデータ) (2021-12-15T14:40:08Z) - Emergent Graphical Conventions in a Visual Communication Game [80.79297387339614]
人間は象徴的な言語とは別にグラフィカルなスケッチと通信する。
視覚コミュニケーションゲームをする2つのニューラルエージェントを介して、このような進化過程をモデル化し、シミュレートする第一歩を踏み出す。
我々は,コミュニケーションと抽象的なグラフィカルな慣行を成功させるために,エージェントを共同で進化させる新しい強化学習手法を考案した。
論文 参考訳(メタデータ) (2021-11-28T18:59:57Z) - Cetacean Translation Initiative: a roadmap to deciphering the
communication of sperm whales [97.41394631426678]
最近の研究では、非ヒト種における音響コミュニケーションを分析するための機械学習ツールの約束を示した。
マッコウクジラの大量生物音響データの収集と処理に必要な重要な要素について概説する。
開発された技術能力は、非人間コミュニケーションと動物行動研究を研究する幅広いコミュニティにおいて、クロス応用と進歩をもたらす可能性が高い。
論文 参考訳(メタデータ) (2021-04-17T18:39:22Z) - Perspectives on individual animal identification from biology and
computer vision [58.81800919492064]
計算機科学者と生物学者の両方に利用可能なツールの概要を提供するコンピュータビジョン識別技術の最近の進歩を概観する。
動物識別プロジェクトを始めるための勧告を提示し、現在の限界を説明し、将来どのように対処されるかを提案する。
論文 参考訳(メタデータ) (2021-02-28T16:50:09Z) - "Notic My Speech" -- Blending Speech Patterns With Multimedia [65.91370924641862]
音声認識と理解における視点依存と視覚的重要性の両方をモデル化するための視点時間的注意機構を提案する。
提案手法は, ビセム誤差率において, 既存の作業よりも4.99%優れていた。
モデルでは,多視点音声に対する理解と人間の知覚との間に強い相関関係があることが示されている。
論文 参考訳(メタデータ) (2020-06-12T06:51:55Z) - VisualEchoes: Spatial Image Representation Learning through Echolocation [97.23789910400387]
いくつかの動物種(コウモリ、イルカ、クジラなど)や視覚障害者さえもエコーロケーションを行う能力を持っている。
エコーロケーションを用いて有用な視覚特徴を学習する対話型表現学習フレームワークを提案する。
我々の研究は、物理的世界との相互作用によって監督される、エンボディエージェントのための表現学習の新しい道を開く。
論文 参考訳(メタデータ) (2020-05-04T16:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。