Fugu-MT 論文翻訳(概要): TimeStampEval: A Simple LLM Eval and a Little Fuzzy Matching Trick to Improve Search Accuracy

論文の概要: TimeStampEval: A Simple LLM Eval and a Little Fuzzy Matching Trick to Improve Search Accuracy

arxiv url: http://arxiv.org/abs/2511.11594v1
Date: Mon, 27 Oct 2025 21:54:56 GMT
ステータス: 翻訳完了
システム内更新日: 2025-11-23 18:31:12.261297
Title: TimeStampEval: A Simple LLM Eval and a Little Fuzzy Matching Trick to Improve Search Accuracy
Title（参考訳）: TimeStampEval:検索精度を向上させるシンプルなLLM方程式と小さなファジィマッチングトリック
Authors: James McCammon,
Abstract要約: TimeStampEvalは、非バーバティムな引用を与えられた長い書き起こしから正確にミリ秒のタイムスタンプを取得するためのベンチマークである。簡単な2段階法では,推論コストを90%以上削減しながら,検索精度を劇的に向上させる。モチベーションのユースケースは、議会記録のクリップをAIがホストする動詞のナレーションにまとめる、自動化されたロングフォームポッドキャストである。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Traditional fuzzy matching often fails when searching for quotes that are semantically identical but syntactically different across documents-a common issue when aligning official written records with speech-to-text transcripts. We introduce TimeStampEval, a benchmark for retrieving precise millisecond timestamps from long transcripts given non-verbatim quotes. Our simple two-stage method dramatically improves retrieval accuracy while cutting inference costs by over 90%. The motivating use case is an automated long-form podcast that assembles Congressional Record clips into AI-hosted narration. The technical challenge: given a sentence-timestamped transcript and a target quote that may differ due to transcription or editorial drift, return exact start and end boundaries. Standard algorithms handle verbatim text but break under fuzzier variants. Evaluating six modern LLMs on a 2,800-sentence (120k-token) transcript revealed four key findings. (1) Prompt design matters more than model choice: placing the query before the transcript and using compact formatting improved accuracy by 3-20 points while reducing token count by 30-40%. (2) Off-by-one errors form a distinct category, showing models understand the task but misplace boundaries. (3) A modest reasoning budget (600-850 tokens) raises accuracy from 37% to 77% for weak setups and to above 90% for strong ones. (4) Our "Assisted Fuzzy" approach-RapidFuzz pre-filtering followed by LLM verification on short snippets-improves fuzzy match accuracy by up to 50 points while halving latency and reducing cost per correct result by up to 96%. Extended tests on ten transcripts (50k-900k tokens, 1989-2025) confirm robustness to transcript length, vocabulary drift, and domain change, maintaining 95-100% rejection accuracy for absent targets.
Abstract（参考訳）: 従来のファジィマッチングは、意味的に同一であるが、文書間で構文的に異なる引用を探す際に失敗することが多い。非バーバティムな引用を与えられた長いテキストから正確なミリ秒タイムスタンプを取得するためのベンチマークであるTimeStampEvalを紹介する。簡単な2段階法では,推論コストを90%以上削減しながら,検索精度を劇的に向上させる。モチベーションのユースケースは、AIがホストするナレーションに議会記録のクリップを組み立てる、自動化されたロングフォームポッドキャストである。技術的課題: 文章タイムスタンプされた書き起こしと、書き起こしや編集のドリフトによって異なる可能性のある対象の引用が与えられた場合、正確な開始と終了の境界を返します。標準アルゴリズムは動詞のテキストを扱うが、ファジエ変種で破る。 2,800文 (120k-token) の写本上での6つの近代LCMの評価を行ったところ, 4つの重要な所見が認められた。 1) トランスクリプトの前にクエリを配置し, コンパクトなフォーマットを使用することで, トークン数を30～40%削減しつつ, 精度を3～20ポイント向上する。 2) オフ・バイ・ワンのエラーは別のカテゴリを形成し、モデルがタスクを理解するが、バウンダリを誤ることを示す。 (3)適度な推論予算(600-850トークン)は、弱いセットアップでは37%から77%に、強いものは90%以上まで精度を上げる。 (4) Assisted Fuzzy approach-Rapid Fuzz pre-filtering followed by LLM verification on short snippets-improving fuzzy Match accuracy to up 50 point by halving latency and reduce cost per correct by up 96%。 10個の転写物(50k-900kトークン、1989-2025)の延長試験は、転写物の長さ、語彙のドリフト、ドメインの変化に対する堅牢性を確認し、欠落したターゲットに対して95-100%の拒絶精度を維持した。

関連論文リスト

The Script Tax: Measuring Tokenization-Driven Efficiency and Latency Disparities in Multilingual Language Models [0.0]
2つの正書法変種を同一言語内容と比較することにより,スクリプト税の定量化を行う。 mBERT と XLM-R にまたがって、高いフラッゲーションの正書法は、受精率を3.4倍に向上させる。サブワードの断片化から「NLLパラドックス」を避けるために、文字単位のビット(BPC)を用いることで、情報コストが大幅に増加することが分かる。
論文参考訳（メタデータ） (2026-01-19T14:45:40Z)
Distinguishing Repetition Disfluency from Morphological Reduplication in Bangla ASR Transcripts: A Novel Corpus and Benchmarking Analysis [0.0]
ノイズの多いASR転写におけるこれらの2つの現象を明瞭に区別するために,手動で注釈を付した2万列バングラコーパスを紹介した。我々は、この新しいリソースを、最先端の多言語大言語モデル(LLM)とタスク固有のエンコーダモデルの微調整という2つのパラダイムを用いてベンチマークする。
論文参考訳（メタデータ） (2025-11-17T09:06:01Z)
Prompt-Based One-Shot Exact Length-Controlled Generation with LLMs [56.47577824219207]
本稿では,既製の大規模言語モデルを補完して,希望するトークン数を正確に生成するプロンプトベースの戦略を提案する。プロンプトはカウントダウンマーカーと明示的なカウントルールを付加し、モデルが"カウント中に書き込む"。 MT-Bench-LI では、GPT-4.1 の厳格な長さコンプライアンスは、単純なプロンプトの30%以下から、カウントダウンプロンプトの95%以上へと飛躍する。
論文参考訳（メタデータ） (2025-08-19T13:12:01Z)
Small Edits, Big Consequences: Telling Good from Bad Robustness in Large Language Models [0.0]
大きな言語モデル(LLM)が、ひとつの単語の誤読が安全性を損なう可能性があるような設定でコードを書くようになりました。有用な堅牢性と有害な不感度の開始点を調査するために、50のLeetCode問題をコンパイルし、3つの最小限の急激な摂動を発生させる。 3つの「推論チューニング」バージョンを含む6つのフロンティアモデルにより、各変更プロンプトが解決される。
論文参考訳（メタデータ） (2025-07-15T03:22:07Z)
Predicting Compact Phrasal Rewrites with Large Language Models for ASR Post Editing [18.962260162806988]
LLM(Large Language Models)は、テキストスタイルの転送や文法的誤り訂正といったタスクの書き直しに優れた言語モデルである。本稿では,フレーズに基づく統計的機械翻訳に触発された代替語句表現を提案する。
論文参考訳（メタデータ） (2025-01-23T16:54:27Z)
Localizing Factual Inconsistencies in Attributable Text Generation [74.11403803488643]
本稿では,帰属可能なテキスト生成における事実の不整合をローカライズするための新しい形式であるQASemConsistencyを紹介する。 QASemConsistencyは、人間の判断とよく相関する事実整合性スコアを得られることを示す。
論文参考訳（メタデータ） (2024-10-09T22:53:48Z)
Augmenting Automatic Speech Recognition Models with Disfluency Detection [12.45703869323415]
音声の拡散は、会話や自発的な発話でよく起こる。現在の研究は、主に、音声の正確な位置と持続時間を見越して、書き起こし中の不一致を検出することに焦点を当てている。我々は,任意のASRモデルを拡張し,開集合不一致を検出するための推論のみのアプローチを提案する。
論文参考訳（メタデータ） (2024-09-16T11:13:14Z)
Handling Numeric Expressions in Automatic Speech Recognition [56.972851337263755]
数値表現の認識と形式化のためのケースドとエンド・ツー・エンドのアプローチを比較した。その結果,適応型エンドツーエンドモデルでは,低レイテンシと推論コストの利点を生かして,競争性能が向上することがわかった。
論文参考訳（メタデータ） (2024-07-18T09:46:19Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
SpellMapper: A non-autoregressive neural spellchecker for ASR customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。 Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文参考訳（メタデータ） (2023-06-04T10:00:12Z)
On Addressing Practical Challenges for RNN-Transduce [72.72132048437751]
オーディオデータを収集することなく、よく訓練されたRNN-Tモデルを新しいドメインに適応します。復号時に計算された複数の特徴を利用して単語レベルの信頼度を求める。提案手法では,平均で50ms以下の単語のタイミング差が得られる。
論文参考訳（メタデータ） (2021-04-27T23:31:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。