論文の概要: Segment Length Matters: A Study of Segment Lengths on Audio Fingerprinting Performance
- arxiv url: http://arxiv.org/abs/2601.17690v1
- Date: Sun, 25 Jan 2026 04:32:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.216293
- Title: Segment Length Matters: A Study of Segment Lengths on Audio Fingerprinting Performance
- Title(参考訳): セグメント長の課題: セグメント長の音響フィンガープリント性能に関する研究
- Authors: Ziling Gong, Yunyan Ouyang, Iram Kamdar, Melody Ma, Hongjie Chen, Franck Dernoncourt, Ryan A. Rossi, Nesreen K. Ahmed,
- Abstract要約: セグメント長が音声フィンガープリント性能に与える影響について検討する。
以上の結果から, 短区間長(0.5秒)は一般に性能が向上することが示された。
本研究は,大規模ニューラルオーディオ検索システムにおけるセグメント長選択のための実用的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 65.82811567989506
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audio fingerprinting provides an identifiable representation of acoustic signals, which can be later used for identification and retrieval systems. To obtain a discriminative representation, the input audio is usually segmented into shorter time intervals, allowing local acoustic features to be extracted and analyzed. Modern neural approaches typically operate on short, fixed-duration audio segments, yet the choice of segment duration is often made heuristically and rarely examined in depth. In this paper, we study how segment length affects audio fingerprinting performance. We extend an existing neural fingerprinting architecture to adopt various segment lengths and evaluate retrieval accuracy across different segment lengths and query durations. Our results show that short segment lengths (0.5-second) generally achieve better performance. Moreover, we evaluate LLM capacity in recommending the best segment length, which shows that GPT-5-mini consistently gives the best suggestions across five considerations among three studied LLMs. Our findings provide practical guidance for selecting segment duration in large-scale neural audio retrieval systems.
- Abstract(参考訳): オーディオフィンガープリントは、音響信号の識別可能な表現を提供し、後に識別と検索システムに使用することができる。
識別表現を得るためには、入力音声は通常、より短い時間間隔に分割され、局所的な音響特徴を抽出して分析することができる。
現代のニューラルアプローチは、通常、短くて固定的なオーディオセグメントで機能するが、セグメント長の選択はしばしばヒューリスティックに行われ、深さで検査されることは滅多にない。
本稿では,セグメント長が音声フィンガープリント性能に与える影響について検討する。
既存のニューラルフィンガープリンティングアーキテクチャを拡張して,セグメント長を多用し,セグメント長とクエリ持続時間にまたがる検索精度を評価する。
以上の結果から, 短区間長(0.5秒)は一般に性能が向上することが示された。
さらに, 最適セグメント長を推奨するLLM容量を評価し, GPT-5-miniは3つのLLMのうち, 5つの考慮事項で常に最適であることを示す。
本研究は,大規模ニューラルオーディオ検索システムにおけるセグメント長選択のための実用的なガイダンスを提供する。
関連論文リスト
- AudioMarathon: A Comprehensive Benchmark for Long-Context Audio Understanding and Efficiency in Audio LLMs [53.248502396225724]
AudioMarathonは、ロングフォームオーディオの理解と推論の効率を評価するために設計されたベンチマークである。
我々は、最先端のLALMを評価し、音声の長さが大きくなるにつれて、明らかな性能低下を観察する。
その結果、現在のLALM間での大きなギャップが示され、時間的推論の改善の必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-10-08T17:50:16Z) - Forensic deepfake audio detection using segmental speech features [27.29588853432526]
本研究では,ディープフェイク音声の検出にセグメント音声の音響的特徴を用いることの可能性を検討する。
法医学的音声比較(FVC)で一般的に用いられる部分的特徴はディープフェイクを特定するのに有効であるが、いくつかのグローバル特徴はほとんど価値がない。
論文 参考訳(メタデータ) (2025-05-20T02:42:46Z) - A Flexible and Scalable Framework for Video Moment Search [51.47907684209207]
本稿では,テキストクエリにマッチする任意の長さの動画のコレクションからランク付けされたモーメントのリストを取得するためのフレキシブルなフレームワークを提案する。
SPR(Segment-Proposal-Ranking)と呼ばれる我々のフレームワークは,探索プロセスを,セグメント検索,提案生成,モーメント改善という3つの独立した段階に単純化する。
TVR-Rankingデータセットの評価から,我々のフレームワークは,計算コストと処理時間を大幅に削減して最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2025-01-09T08:54:19Z) - Real Time Multi Organ Classification on Computed Tomography Images [0.08192907805418582]
スパースデータサンプリング戦略を用いた大コンテキストサイズを用いて,臓器ラベルをリアルタイムに取得する方法を実証する。
本手法は,問合せ位置の独立分類器として機能するが,任意の解像度で問合せ格子位置を問合せすることで,完全分割を生成することができる。
論文 参考訳(メタデータ) (2024-04-29T14:17:52Z) - Temporal Segment Transformer for Action Segmentation [54.25103250496069]
本稿では,テキスト・セグメント・トランスフォーマ (textittemporal segment transformer) と呼ぶアテンション・ベース・アプローチを提案する。
主な考え方は、セグメントとフレームの間の注意を用いてセグメント表現を識別することであり、またセグメント間の時間的相関を捉えるためにセグメント間注意を用いる。
このアーキテクチャは,50Salads,GTEA,Breakfastのベンチマークにおいて,最先端の精度を実現していることを示す。
論文 参考訳(メタデータ) (2023-02-25T13:05:57Z) - Universal speaker recognition encoders for different speech segments
duration [7.104489204959814]
プールされた短い音声セグメントと長い音声セグメントを同時に訓練するシステムでは、最適な検証結果が得られない。
我々は,任意のタイプのニューラルネットワークアーキテクチャに対して,ユニバーサル話者エンコーダを訓練するための簡単なレシピについて述べる。
論文 参考訳(メタデータ) (2022-10-28T16:06:00Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - E2E Segmenter: Joint Segmenting and Decoding for Long-Form ASR [38.79441296832869]
ストリーミング方式でセグメント境界を予測できるエンドツーエンドのASRモデルを提案する。
我々は,最先端のコンフォーマーRNN-Tモデルにおいて,VADセグメンタベースラインと比較して,WERが8.5%向上し,中央値の遅延が250ms減少したことを実証した。
論文 参考訳(メタデータ) (2022-04-22T15:13:12Z) - Robust Feature Learning on Long-Duration Sounds for Acoustic Scene
Classification [54.57150493905063]
音響シーン分類(ASC)は、所定の音声信号が記録されるシーンの種類(環境)を特定することを目的としている。
我々は,CNNを訓練するための頑健な特徴学習(RFL)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-11T03:33:05Z) - Neural Sequence Segmentation as Determining the Leftmost Segments [25.378188980430256]
自然言語文をセグメントレベルで段階的に分割する新しい枠組みを提案する。
セグメンテーションのすべてのステップにおいて、残りのシーケンスの一番左のセグメントを認識する。
3つのデータセットにまたがる構文的チャンキングと中国語のパート・オブ・スパイチ・タギングに関する広範な実験を行った。
論文 参考訳(メタデータ) (2021-04-15T03:35:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。