論文の概要: SUMART: SUMmARizing Translation from Wordy to Concise Expression
- arxiv url: http://arxiv.org/abs/2504.09860v1
- Date: Mon, 14 Apr 2025 04:13:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:05.071652
- Title: SUMART: SUMmARizing Translation from Wordy to Concise Expression
- Title(参考訳): SUMART: 単語から簡潔な表現への翻訳を要約する
- Authors: Naoto Nishida, Jun Rekimoto,
- Abstract要約: 本研究では,動詞字幕翻訳のボリュームを要約し,圧縮する手法であるSUMARTを提案する。
SUMARTは、外国語で会話、音声、ビデオコンテンツ、およびスピーチを素早く理解したいユーザーを対象としている。
実践的な応用として,拡張現実空間における字幕翻訳を用いた会話を可能にするアプリケーションを開発した。
- 参考スコア(独自算出の注目度): 23.6178079869457
- License:
- Abstract: We propose SUMART, a method for summarizing and compressing the volume of verbose subtitle translations. SUMART is designed for understanding translated captions (e.g., interlingual conversations via subtitle translation or when watching movies in foreign language audio and translated captions). SUMART is intended for users who want a big-picture and fast understanding of the conversation, audio, video content, and speech in a foreign language. During the training data collection, when a speaker makes a verbose statement, SUMART employs a large language model on-site to compress the volume of subtitles. This compressed data is then stored in a database for fine-tuning purposes. Later, SUMART uses data pairs from those non-compressed ASR results and compressed translated results for fine-tuning the translation model to generate more concise translations for practical uses. In practical applications, SUMART utilizes this trained model to produce concise translation results. Furthermore, as a practical application, we developed an application that allows conversations using subtitle translation in augmented reality spaces. As a pilot study, we conducted qualitative surveys using a SUMART prototype and a survey on the summarization model for SUMART. We envision the most effective use case of this system is where users need to consume a lot of information quickly (e.g., Speech, lectures, podcasts, Q&A in conferences).
- Abstract(参考訳): 本研究では,動詞字幕翻訳のボリュームを要約し,圧縮する手法であるSUMARTを提案する。
SUMARTは、翻訳された字幕を理解するために設計されている(例:字幕翻訳による言語間会話、外国語の音声や翻訳された字幕で映画を見る場合)。
SUMARTは、外国語で会話、音声、ビデオコンテンツ、およびスピーチを素早く理解したいユーザーを対象としている。
トレーニングデータ収集の間、話者が冗長なステートメントを行うとき、SUMARTは、字幕のボリュームを圧縮するために、現場で大きな言語モデルを使用する。
この圧縮されたデータは、微調整のためにデータベースに格納される。
後に、SUMARTは、圧縮されていないASR結果からのデータペアを使用し、翻訳モデルを微調整するために圧縮された翻訳結果を使用して、実用的な使用のためにより簡潔な翻訳を生成する。
実用的な応用として、SUMARTはこの訓練されたモデルを用いて簡潔な翻訳結果を生成する。
さらに,現実的な応用として,拡張現実空間における字幕翻訳を用いた会話を可能にするアプリケーションを開発した。
本研究では,SUMARTプロトタイプとSUMARTの要約モデルを用いた定性的な調査を行った。
このシステムの最も効果的なユースケースは、ユーザーが大量の情報(例えば、スピーチ、講義、ポッドキャスト、カンファレンスにおけるQ&A)を素早く消費する必要があることだ。
関連論文リスト
- Lost in Translation, Found in Context: Sign Language Translation with Contextual Cues [56.038123093599815]
我々の目的は、連続手話から音声言語テキストへの翻訳である。
署名ビデオと追加のコンテキストキューを組み込む。
文脈的アプローチが翻訳の質を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-01-16T18:59:03Z) - Bridging Language Gaps in Audio-Text Retrieval [28.829775980536574]
本稿では,多言語テキストエンコーダ(SONAR)を用いた言語拡張 (LE) を提案し,テキストデータを言語固有の情報で符号化する。
我々は,一貫したアンサンブル蒸留(CED)の適用により,オーディオエンコーダを最適化し,可変長音声テキスト検索のサポートを強化した。
提案手法は,AudioCaps や Clotho などの一般的なデータセット上でのSOTA (State-of-the-art) の性能を示す,英語の音声テキスト検索に優れている。
論文 参考訳(メタデータ) (2024-06-11T07:12:12Z) - TransVIP: Speech to Speech Translation System with Voice and Isochrony Preservation [97.54885207518946]
カスケード方式で多様なデータセットを活用する新しいモデルフレームワークTransVIPを提案する。
本稿では、話者の音声特性と、翻訳過程における音源音声からの等時性を維持するために、2つの分離エンコーダを提案する。
フランス語と英語のペアに関する実験により、我々のモデルは、現在最先端の音声音声翻訳モデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-05-28T04:11:37Z) - Video-Helpful Multimodal Machine Translation [36.9686296461948]
マルチモーダル機械翻訳(MMT)データセットは、画像とビデオキャプションまたは命令的なビデオ字幕から構成される。
EVA(Extensive training set and video-helpful evaluation set for Ambiguous subtitles translation)を導入し,852kの日本語(Ja-En)パラレル字幕対,520kの中国語(Zh-En)パラレル字幕対を含むMTデータセットを提案する。
Selective Attentionモデルに基づくMSTモデルであるSAFAを提案する。
論文 参考訳(メタデータ) (2023-10-31T05:51:56Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - "Wikily" Neural Machine Translation Tailored to Cross-Lingual Tasks [20.837515947519524]
リンクされたウィキペディアページの最初の文とタイトル、およびクロスリンガル画像キャプションは、二言語辞書を抽出し、ウィキペディアからパラレルテキストをマイニングするためのクロスリンガル単語埋め込みを抽出するシードパラレルデータのための強力な信号である。
画像キャプションでは、アラビア語の訓練データが英語のキャプションデータのウィキリー翻訳であるアラビア語と英語のマルチタスク機械翻訳と画像キャプションパイプラインを訓練する。
アラビア語の字幕化の結果は、教師付きモデルよりも若干優れている。
論文 参考訳(メタデータ) (2021-04-16T21:49:12Z) - QuerYD: A video dataset with high-quality text and audio narrations [85.6468286746623]
ビデオの検索とイベントのローカライゼーションのための大規模データセットQuerYDを紹介する。
データセットのユニークな特徴は、ビデオ毎に2つのオーディオトラック(オリジナルオーディオと高品質な音声記述)が利用可能であることです。
YouDescribeは、既存のYouTubeビデオに音声ナレーションを付加することで視覚障害者を支援するボランティアプロジェクトだ。
論文 参考訳(メタデータ) (2020-11-22T17:33:44Z) - Watch and Learn: Mapping Language and Noisy Real-world Videos with
Self-supervision [54.73758942064708]
我々は、明示的なアノテーションを使わずに、文章と騒々しいビデオスニペットのマッピングを学習することで、視覚と自然言語を理解するように機械に教える。
トレーニングと評価のために、多数のオンラインビデオとサブタイトルを含む新しいデータセットApartmenTourをコントリビュートする。
論文 参考訳(メタデータ) (2020-11-19T03:43:56Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - SPLAT: Speech-Language Joint Pre-Training for Spoken Language
Understanding [61.02342238771685]
音声理解には、入力音響信号を解析してその言語内容を理解し、予測するモデルが必要である。
大規模無注釈音声やテキストからリッチな表現を学習するために,様々な事前学習手法が提案されている。
音声と言語モジュールを協調的に事前学習するための,新しい半教師付き学習フレームワークであるSPLATを提案する。
論文 参考訳(メタデータ) (2020-10-05T19:29:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。