論文の概要: Segment, Embed, and Align: A Universal Recipe for Aligning Subtitles to Signing
- arxiv url: http://arxiv.org/abs/2512.08094v1
- Date: Mon, 08 Dec 2025 23:07:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.750845
- Title: Segment, Embed, and Align: A Universal Recipe for Aligning Subtitles to Signing
- Title(参考訳): Segment, Embed, and Align: 署名に字幕を付けるためのユニバーサルレシピ
- Authors: Zifan Jiang, Youngjoon Jang, Liliane Momeni, Gül Varol, Sarah Ebling, Andrew Zisserman,
- Abstract要約: Segment、Embed、Align(SEA)は、複数の言語やドメインで動作する単一のフレームワークを提供する。
SEAは2つの事前訓練されたモデルを利用する: ビデオフレームシーケンスを個別の記号に分割し、次に、各サインのビデオクリップをテキストで共有潜在空間に埋め込む。
アライメントは、数時間のエピソードであっても、1分以内にCPU上で効率的に実行される軽量な動的プログラミング手順で実行される。
- 参考スコア(独自算出の注目度): 60.9289697082021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of this work is to develop a universal approach for aligning subtitles (i.e., spoken language text with corresponding timestamps) to continuous sign language videos. Prior approaches typically rely on end-to-end training tied to a specific language or dataset, which limits their generality. In contrast, our method Segment, Embed, and Align (SEA) provides a single framework that works across multiple languages and domains. SEA leverages two pretrained models: the first to segment a video frame sequence into individual signs and the second to embed the video clip of each sign into a shared latent space with text. Alignment is subsequently performed with a lightweight dynamic programming procedure that runs efficiently on CPUs within a minute, even for hour-long episodes. SEA is flexible and can adapt to a wide range of scenarios, utilizing resources from small lexicons to large continuous corpora. Experiments on four sign language datasets demonstrate state-of-the-art alignment performance, highlighting the potential of SEA to generate high-quality parallel data for advancing sign language processing. SEA's code and models are openly available.
- Abstract(参考訳): 本研究の目的は,字幕を連続的な手話ビデオに整合させる普遍的な手法を開発することである。
従来のアプローチは一般的に、特定の言語やデータセットに結びついたエンドツーエンドのトレーニングに依存しており、その汎用性は制限される。
対照的に、Segment、Embed、Align(SEA)というメソッドは、複数の言語やドメインにまたがる単一のフレームワークを提供します。
SEAは2つの事前訓練されたモデルを利用する: ビデオフレームシーケンスを個別の記号に分割し、次に、各サインのビデオクリップをテキストで共有潜在空間に埋め込む。
その後、アライメントは軽量な動的プログラミング手順で実行され、1時間のエピソードであっても1分以内にCPU上で効率的に実行される。
SEAは柔軟で、小さなレキシコンから大きな連続コーパスまでのリソースを活用して、幅広いシナリオに適応することができる。
4つの手話データセットの実験は、最先端のアライメント性能を示し、手話処理を進めるための高品質な並列データを生成するSEAの可能性を強調している。
SEAのコードとモデルは公開されています。
関連論文リスト
- Lost in Translation, Found in Embeddings: Sign Language Translation and Alignment [84.39962912136525]
我々は手話翻訳(SLT)と手話字幕アライメント(SSA)を実行する手話理解モデルを開発する。
i)人間のキーポイントと唇領域の画像から手動と非手動のキューをキャプチャする軽量な視覚バックボーン,(ii)連続的な視覚特徴を単語レベルの埋め込みに集約するスライディングパーシーバーマッピングネットワーク,(iii)SLTとSSAを協調的に最適化するマルチタスクスケーラブルなトレーニング戦略である。
論文 参考訳(メタデータ) (2025-12-08T21:05:46Z) - Seeing, Signing, and Saying: A Vision-Language Model-Assisted Pipeline for Sign Language Data Acquisition and Curation from Social Media [14.920401718793643]
視覚言語モデル(VLM)は評価器やリアルタイムアシスタントとして強力な能力を示している。
データ品質を保ちながら手作業への依存を減らすためにVLMを利用した最初の自動アノテーションとフィルタリングフレームワークを導入する。
提案手法は,8つの手話のTikTokビデオと,ドイツ語手話におけるすでに編集済みのYouTube-SL-25データセットに適用した。
論文 参考訳(メタデータ) (2025-10-29T11:29:56Z) - InstructSeg: Unifying Instructed Visual Segmentation with Multi-modal Large Language Models [37.43195217391341]
本稿では,画像レベルと映像レベルのセグメンテーションと推論セグメンテーションの融合を,IVS(Instructed Visual)として定義する。
具体的には、参照フレームから時間的およびオブジェクト情報を抽出し、包括的な映像理解を容易にするために、オブジェクト認識ビデオ知覚器を用いる。
マルチタスクとエンドツーエンドのトレーニングを活用することで、InstructSegは、さまざまな画像およびビデオセグメンテーションタスクにまたがる優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-12-18T16:20:40Z) - SignCLIP: Connecting Text and Sign Language by Contrastive Learning [39.72545568965546]
SignCLIPは、大規模な多言語ビデオテキストペアから手話処理に有用な視覚表現を学習する効率的な方法である。
SpreadthesignでSignCLIPを事前訓練し,最大44の手話で5万本のビデオクリップを収録した手話辞書を作成した。
我々は、音声言語テキストと手話ポーズによって形成される潜伏空間を分析し、さらなる言語学的洞察を提供する。
論文 参考訳(メタデータ) (2024-07-01T13:17:35Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - OmniVid: A Generative Framework for Universal Video Understanding [133.73878582161387]
我々は、言語をラベルとして使用し、時間とボックストークンを付加することで、ビデオ理解タスクの出力空間を統合することを目指している。
これにより、分類、キャプション、ローカライゼーションなど、さまざまなタイプのビデオタスクに対処できる。
このようなシンプルで素直なアイデアは極めて効果的であり、最先端ないし競争的な結果を得ることができることを実証する。
論文 参考訳(メタデータ) (2024-03-26T17:59:24Z) - Learning Grounded Vision-Language Representation for Versatile
Understanding in Untrimmed Videos [57.830865926459914]
本稿では,情報イベントを自動的に検出する未編集ビデオのための視覚言語学習フレームワークを提案する。
粗いレベルのビデオ言語アライメントの代わりに、細かなセグメントレベルのアライメントを促進するために、2つの二重プレテキストタスクを提示する。
我々のフレームワークは、視覚的な言語理解と生成のタスクに容易に対応できる。
論文 参考訳(メタデータ) (2023-03-11T11:00:16Z) - Aligning Subtitles in Sign Language Videos [80.20961722170655]
17.7時間に及ぶビデオの字幕15k以上の注釈付きアライメントを手作業でトレーニングした。
我々は,この2つの信号を符号化するために,BERT字幕埋め込みとCNNビデオ表現を用いた。
本モデルでは,ビデオフレームごとのフレームレベルの予測,すなわちクェリされたサブタイトルに属するか否かを出力する。
論文 参考訳(メタデータ) (2021-05-06T17:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。